Come HomePod utilizza l'apprendimento automatico per migliorare l'accuratezza di Siri in campo lontano

In un nuovo post pubblicato lunedì attraverso il suo blog di Machine Learning Journal, Apple spiega in dettaglio come HomePod, il suo altoparlante intelligente wireless, utilizza l'apprendimento automatico per aumentare l'accuratezza sul campo lontano, che aiuta Siri a ignorare o a sopprimere i suoni di sottofondo per comprendere meglio il parlato richieste in ambienti rumorosi.

Dall'articolo:

Il tipico ambiente audio per HomePod presenta molte sfide: eco, riverbero e rumore. A differenza di Siri su iPhone, che funziona vicino alla bocca dell'utente, Siri su HomePod deve funzionare bene in un campo lontano. Gli utenti vogliono invocare Siri da molte posizioni, come il divano o la cucina, indipendentemente da dove si trovi HomePod.

Un sistema online completo, che affronta tutti i problemi ambientali che HomePod può sperimentare, richiede una stretta integrazione di varie tecnologie di elaborazione del segnale multicanale. Di conseguenza, i team di Audio Software Engineering e Siri Speech hanno creato un sistema che integra sia modelli di apprendimento profondo supervisionato che algoritmi di apprendimento online non supervisionati e che sfrutta più segnali microfonici.

Il sistema seleziona il flusso audio ottimale per il riconoscimento vocale utilizzando la conoscenza top-down dei rilevatori di frasi trigger "Hey Siri".

Il resto dell'articolo discute l'uso delle varie tecniche di apprendimento automatico per l'elaborazione del segnale online, nonché le sfide che Apple ha affrontato e le loro soluzioni per raggiungere la solidità ambientale e algoritmica garantendo l'efficienza energetica.

Per farla breve, Siri su HomePod implementa l'algoritmo di cancellazione dell'eco multicanale (MCEC) che utilizza una serie di filtri adattivi lineari per modellare i percorsi acustici multipli tra gli altoparlanti e i microfoni per annullare l'accoppiamento acustico.

A causa della stretta vicinanza degli altoparlanti ai microfoni su HomePod, il segnale di riproduzione può essere significativamente più forte del comando vocale di un utente in corrispondenza delle posizioni del microfono, specialmente quando l'utente si allontana dal dispositivo. In effetti, i segnali di eco possono essere più forti di 30-40 dB rispetto ai segnali vocali in campo lontano, con la conseguenza che la frase trigger non è rilevabile sui microfoni durante la riproduzione di musica ad alto volume.

TLDR: MCEC da solo non può rimuovere completamente il segnale di riproduzione dal comando vocale.


Comando Siri registrato in presenza di musica ad alta riproduzione: segnale del microfono (in alto), uscita di MCEC (al centro) e segnale potenziato dalla soppressione dell'eco basata su maschera di Apple (in basso)

Per rimuovere i contenuti di riproduzione rimanenti dopo l'MCEC, HomePod utilizza un approccio di soppressione dell'eco residuo (RES) con un piccolo aiuto dal modello di apprendimento automatico ben addestrato di Apple. Per un corretto rilevamento della frase trigger, la RES fa cose come mitigare l'eco lineare residua, specialmente in presenza di doppie conversazioni e cambi di percorso dell'eco.

Assicurati di leggere l'intero post e scorrere verso il basso fino alla Sezione 7, dove sono presenti immagini di più forme d'onda colorate insieme a collegamenti sottostanti che ti consentono di ascoltare tu stesso quanto la richiesta di un utente viene soppressa dalla musica riprodotta ad alto volume e il segnale di riproduzione generato dai tweeter e dal woofer di HomePod.

Tidbit: l'elaborazione del segnale multicanale di Apple funziona su un core del silicio A8 dual-core da 1,4 GHz e consuma fino al 15 percento delle prestazioni single-core del chip.

HomePod utilizza l'apprendimento automatico per molte cose, non solo per Siri.

Gli algoritmi di raccomandazione dei contenuti eseguiti sul dispositivo beneficiano dell'apprendimento automatico, così come le tecniche di elaborazione dell'audio digitale e di ottimizzazione del suono di HomePod.