Tutti i benefici delle soluzioni di videoconferenza, sia in termini di efficacia per le aziende sia di funzionalità e organizzazione del lavoro per gli utilizzatori finali (dei quali abbiamo parlato in questo articolo), non sono esenti da requisiti operativi o infrastrutturali e da sfide tecniche per poterli rendere disponibili, in particolare all’interno delle grandi aziende.

Se da un lato, oltre a strumenti licenziati a pagamento (magari in versione “for business” con accresciute funzionalità e performance), oggi sono disponibili strumenti software anche gratuiti, dall’altro il loro supporto in azienda può non essere esente da costi e requisiti collaterali. In particolare, nelle organizzazioni dove il numero di utenti è elevato e dove viene fatto un uso quotidiano e massivo di questi strumenti, per garantirne la qualità può essere indispensabile mettere in campo accorgimenti infrastrutturali o fornirsi di specifiche soluzioni tecnologiche.

Partiamo dal fatto che per un utilizzo ottimale e di qualità del video conferencing è richiesto che ogni postazione lavorativa sia dotata di webcam e di dispositivi audio dalle caratteristiche adeguate, sia in fase di registrazione (microfono) che di riproduzione. In molti casi si parla anche di soluzioni flessibili nel loro utilizzo (come periferiche wireless/bluetooth o ambientali per riunioni di gruppo), talvolta arricchite di ulteriori funzionalità per ricevere comandi manuali (rispondere, comporre,…), cancellare i rumori di fondo o ancora per fungere da sostituti delle soluzioni telefoniche o VoIP.

Tutto questo è abbastanza ovvio. Ciò che invece non va sottovaluto è l’impatto che l’uso di questi applicativi può avere su:

  • l’occupazione di banda e le performance della rete aziendale e sulla relativa connettività WAN;
  • l’efficienza complessiva dei dispositivi locali (nell’uso delle altre applicazioni);
  • il dimensionamento e il volume di computazione richiesti per gli ambienti server (su infrastrutture cloud o centralizzate) chiamati a gestire anche questi servizi aggiuntivi.

Tutti questi applicativi, infatti, richiedono la codifica e decodifica in tempo reale di flussi (stream) audio-video, compito che può risultare oneroso in termini computazionali, visto che devono essere adottati algoritmi capaci di rispondere contemporaneamente sia alla necessità di interattività (esecuzione in real-time) sia all’esigenza di limitare l’utilizzo di banda (ottenere una compressione significativa).

Ciascuna soluzione di video conferencing utilizza tecnologie diverse che comunque garantiscono sempre livelli di qualità pari o superiori a connessioni audio-video in HD. Si prenda per esempio una delle piattaforme più diffuse nel mondo consumer o small-business come Google Meet. Coerentemente allo standard WebRTC, Google Meet utilizza i codec VP8 e VP9 per la compressione dei proprio flussi video, e utilizza invece il codec audio Opus per la compressione del flusso voce. Microsoft Teams, molto diffusa in ambito corporate, invece, si basa su soluzioni specifiche di Microsoft, che sfruttano il protocollo MNP24 già messo in campo a partire dalle versioni consumer di Skype. Cisco WebEx utilizza a sua volta soluzioni proprietarie così come anche il leader di mercato della classe, Zoom, che utilizza una propria versione modificata del protocollo SVC (Scalable Video Coding, nome che rappresenta l’estensione del protocollo H.264/MPEG-4 AVC). Si tratta della stessa famiglia di protocolli largamente usata in altri ambiti del videostreaming, in particolare nel mondo delle infrastrutture di virtualizzazione del desktop (VDI).

Ciò che in ogni caso accomuna qualunque di queste soluzioni è la necessità di destinare risorse di elaborazione (in termini pratici CPU -o GPU- e RAM) alla codifica e decodifica dei flussi audio e video registrati in locale (video dell’utente finale connesso e la sua traccia voce) e ricevuti dal server che coordina la videoconferenza (ovvero il flusso congiunto audio e video degli altri partecipanti alla stessa riunione). Queste risorse, inoltre, possono aumentare in specifiche casistiche, ad esempio se si vogliono effettuare videoconferenze ad altissima risoluzione, se si utilizzano effetti grafici (es. sfocatura o sostituzione dello sfondo), se si combinano più flussi video (es. condivisione della webcam e anche condivisione live del proprio desktop/ambiente di lavoro), e in altri casi ancora….

Tutto questo sforzo computazionale è fatto nell’ottica di ottimizzare l’utilizzo delle risorse di rete (banda occupata) tenendo anche conto che spesso l’utente ha bisogno di utilizzare altre applicazioni che a loro volta richiedono connessione, che vi potrebbero essere contemporaneamente più videoconferenze in corso dalla stessa rete e che il collegamento potrebbe avvenire in qualsiasi contesto. Si pensi ad esempio al caso in cui, su una stessa unica linea casalinga di portata limitata vi sia chi lavora collaborando da remoto con questi strumenti mentre i figli stanno seguendo delle lezioni in streaming. Nel caso più tipico, in ambito aziendale, le reti sono collegate tramite linee dedicate e ad alta portata ma potrebbero essere in corso molteplici, decine o centinaia, sessioni di videoconferenza distinte, ciascuna delle quali genera traffico internet sia in download che in upload, portata nella quale spesso le linee domestiche o di minor dimensionamento sono più limitate.

Vari studi e test empirici confermano che, mediamente, le diverse applicazioni di video conferencing possono essere gestite in maniera ottimale nel caso di singola sessione con una disponibilità in downstream di 2Mbps di banda, per quanto la stessa possa essere anche inferiore in taluni casi. Similmente, una singola sessione richiede un traffico upstream, prevalentemente di tipo UDP (quindi invii non sincroni e con possibilità di package loss), di circa 1.5 Mbps, con ampia possibilità di ottimizzazione nel caso di connessioni concorrenti e contemporanee (ad es. 10 sessioni contemporanee possono rimanere nel limite di 5.0 Mbps). Tutte le soluzioni, infatti, cercano di gestire con ottimizzazioni apposite il traffico generato da sessioni multiple o che coinvolgono più “peer” all’interno della stessa rete.

Tutto questo cosa insegna? Che anche l’utilizzo degli strumenti di collaboration e video conferencing va opportunamente accompagnato in termini software, hardware e infrastrutturale, affinché sia efficace e funzionale. Se già alcuni punti di attenzione si presentano per l’utente singolo collegato da una linea remota, tanto più questi fattori entrano in campo per le infrastrutture aziendali (che devono supportare il carico complessivo/cumulato di tutte le sessioni contemporanee svolte dai propri collaboratori). Si parla infatti di un ambito applicativo, basato sulla comunicazione e l’interazione umana (trasmissione di voci, volti, interazione video,…) dove le performance sono fondamentali e un eventuale deterioramento della comunicazione rende l’esperienza utente e l’interazione insostenibile, dunque di fatto inibisce l’uso del tool.

Occorrono quindi: innanzitutto dispositivi hardware testati e certificati per questo caso d’uso e connettività di rete, stabilità e banda adeguate e opportunamente dimensionate sul bacino di utenza e sull’uso fatto di questi strumenti (sporadico, frequente o massivo) in abbinamento ad altri servizi utilizzati comunemente e potenzialmente “CPU or network-intensive”.  Quando si parla, però, dell’utilizzo della video collaboration in azienda anche la configurazione software dell’infrastruttura server è cruciale. Vedremo presto perché.