Todos los beneficios de las soluciones de videoconferencia, tanto en términos de efectividad para las empresas como en términos de funcionalidad y organización del trabajo para los usuarios finales (de los que hemos hablado en este artículo), no están exentos de requisitos operativos o de infraestructura y de desafíos técnicos para ponerlos a disposición, particularmente dentro de las grandes empresas.

Si por un lado, además de las herramientas con licencia de pago (quizás en una versión «for business» con mayor funcionalidad y rendimiento), también hay disponibles herramientas de software libre, por otro lado su soporte en la empresa puede tener costes y requisitos colaterales. En particular, en empresas donde el número de usuarios es elevado y donde se hace un uso diario masivo de estas herramientas, para asegurar la calidad de las mismas puede ser imprescindible implantar medidas infraestructurales o adquirir soluciones tecnológicas específicas.

Hay que decir que para un uso óptimo y de calidad de las videoconferencias se requiere que cada estación de trabajo esté equipada con una webcam y dispositivos de audio con características adecuadas, tanto durante la grabación (micrófono) como durante la reproducción. En muchos casos también se habla de soluciones que son flexibles en su uso (como Wi-Fi/Bluetooth o periféricos ambientales para reuniones de grupo), a veces enriquecidas con más funciones para recibir comandos manuales (responder, marcar,…), cancelar ruido de fondo o incluso para servir como sustitutos de soluciones de telefonía o VoIP.

Todo esto es bastante obvio. Sin embargo, lo que no debe subestimarse es el impacto que el uso de estas aplicaciones puede tener en:

  • la ocupación de ancho de banda y rendimiento de la red corporativa y la conectividad WAN relacionada;
  • la eficiencia general de los dispositivos locales (en el uso de otras aplicaciones);
  • el dimensionamiento y el volumen computacional requerido para los entornos de servidor (en la nube o en infraestructuras centralizadas) para gestionar estos servicios adicionales.

Todas estas aplicaciones, de hecho, requieren la codificación y decodificación en tiempo real de flujos de audio y video, una tarea que puede ser onerosa en términos computacionales, dado que hay que tener algoritmos capaces de responder simultáneamente a la necesidad de interactividad (ejecución en tiempo real) y a la necesidad de limitar el uso del ancho de banda (obtener una compresión significativa).

Cada solución de videoconferencia utiliza diferentes tecnologías que siempre garantizan niveles de calidad iguales o superiores a las conexiones de audio-video HD. Tomemos, por ejemplo, una de las plataformas más populares en el mundo del consumidor o de las empresas pequeñas, como Google Meet. De acuerdo con el estándar WebRTC, Google Meet usa los códecs VP8 y VP9 para la compresión de sus transmisiones de video y, en su lugar, usa el códec de audio Opus para la compresión de la transmisión de voz. Sin embargo, Microsoft Teams, muy extendido en el entorno corporativo, se basa en soluciones específicas de Microsoft, que aprovechan el protocolo MNP24 ya implementado a partir de las versiones de consumidor de Skype. Cisco WebEx, a su vez, utiliza soluciones propietarias, así como el líder del mercado en su clase, Zoom, que utiliza su propia versión modificada del protocolo SVC (Scalable Video Coding, un nombre que representa la extensión del protocolo H.264/MPEG-4 AVC). Se trata de la misma familia de protocolos ampliamente utilizada en otras áreas de transmisión de video, en particular en el mundo de las infraestructuras de virtualización de escritorio (VDI).

En cualquier caso, lo que une a cualquiera de estas soluciones es la necesidad de destinar recursos de procesamiento (en términos prácticos CPU -o GPU- y RAM) a la codificación y decodificación de flujos de audio y video grabados localmente (video del usuario final conectado y su seguimiento de voz) y recibido por el servidor que coordina la videoconferencia (es decir, la transmisión conjunta de audio y video de los otros participantes en la misma reunión). Además, estos recursos pueden aumentar en casos concretos, por ejemplo si se quiere realizar videoconferencias de muy alta resolución, si se utilizan efectos gráficos (por ejemplo, desenfocar o cambiar el fondo), si se combinan varios flujos de vídeo (por ejemplo, compartir la webcam y también compartir el escritorio/entorno de trabajo) y en otros casos….

Todo este esfuerzo computacional se hace con vistas a optimizar el uso de los recursos de la red (ancho de banda ocupado) teniendo en cuenta además que muchas veces el usuario necesita utilizar otras aplicaciones que a su vez requieren una conexión, que puede haber varias videoconferencias al mismo tiempo desde la misma red y que la conexión podría tener lugar en cualquier contexto. Pensemos, por ejemplo, en el caso de que, en una misma línea única de casa de alcance limitado, haya quienes trabajen colaborando a distancia con estas herramientas mientras sus hijos siguen lecciones en streaming. En el caso más típico, en el entorno corporativo, las redes están conectadas a través de líneas dedicadas de alta capacidad, pero puede haber múltiples, decenas o cientos de distintas sesiones de videoconferencia en curso, cada una de las cuales genera tráfico de Internet tanto en descarga como en carga, en qué líneas de casa o más pequeñas suelen ser más limitadas.

Varios estudios y pruebas empíricas confirman que, de media, las distintas aplicaciones de videoconferencia pueden gestionarse de forma óptima en el caso de una sola sesión con una disponibilidad de ancho de banda de bajada de 2 Mbps, aunque en algunos casos puede ser incluso inferior. Del mismo modo, una sola sesión requiere un tráfico de subida, principalmente de tipo UDP (por lo tanto, envío no síncrono y con posibilidad de pérdida de paquetes), de unos 1,5 Mbps, con amplia posibilidad de optimización en el caso de conexiones simultáneas y concurrentes (ej. 10 sesiones de llamadas simultáneas pueden permanecer dentro del límite de 5.0 Mbps). De hecho, todas las soluciones intentan gestionar el tráfico generado por múltiples sesiones o que involucra a múltiples «peers» dentro de la misma red con optimizaciones específicas.

¿Qué enseña todo esto? Que el uso de herramientas de colaboración y videoconferencia también debe ir adecuadamente acompañado en términos de software, hardware e infraestructura, para que sea eficaz y funcional. Si ya surgen algunos puntos de atención para el usuario único conectado por una línea remota, más entran en juego estos factores para las infraestructuras corporativas (que deben soportar la carga global/acumulativa de todas las sesiones simultáneas realizadas por sus colaboradores). De hecho, estamos hablando de un área de aplicación, basada en la comunicación y la interacción humana (transmisión de voces, rostros, interacción de video,…) donde el rendimiento es fundamental y cualquier deterioro de la comunicación hace insostenible la experiencia e interacción del usuario y efectivamente inhibe el uso de la herramienta.

Por lo tanto, se requiere: en primer lugar, dispositivos de hardware probados y certificados para este caso de uso y conectividad de red, estabilidad y ancho de banda adecuados y de tamaño adecuado en la base de los usuarios y en el uso que se hace de estas herramientas (esporádico, frecuente o masivo) en combinación con otros servicios de uso común y potencialmente “CPU or network-intensive”. Sin embargo, cuando se trata del uso de la colaboración de video en la empresa, la configuración del software de la infraestructura del servidor también es crucial. Pronto veremos por qué.