Mercoledì Apple ha pubblicato tre nuovi articoli che descrivono in dettaglio le tecniche di deep learning utilizzate per la creazione delle nuove voci sintetiche di Siri. I redattori coprono anche altri argomenti di apprendimento automatico che condivideranno entro la settimana alla conferenza Interspeech 2017 a Stoccolma, Svezia.
Sono ora disponibili i seguenti nuovi articoli del team Siri:
- Deep Learning for Siri's Voice: spiega come le reti di densità di miscela profonda su dispositivo vengono utilizzate per la sintesi di selezione di unità ibride
- Inverse Text Normalizzazione avvicinata dal punto di vista dell'etichettatura
- Migliorare i modelli acustici della rete neurale, sfruttando la larghezza di banda incrociata e l'inizializzazione multilingue, se sai cosa intendo
Se hai difficoltà a comprendere i tecnicismi o anche a comprendere la natura altamente tecnica del linguaggio utilizzato negli ultimi articoli, non sei il solo.
Non ho problemi a immergermi nella complessa documentazione di Apple per sviluppatori e altra documentazione specializzata, ma mi sento decisamente stupido solo leggendo questi spiegatori dettagliati.
Tra gli altri miglioramenti, iOS 11 offre più intelligenza e una nuova voce per Siri.
L'assistente personale di Apple non usa più le frasi e le parole registrate dai doppiatori per costruire frasi e le sue risposte. Invece, Siri su iOS 11 (e altre piattaforme) adotta voci maschili e femminili create programmaticamente. Questa è una tecnica di sintesi vocale molto più difficile, ma consente alcune possibilità creative davvero interessanti.
Ad esempio, le nuove voci di Siri sfruttano l'apprendimento automatico su dispositivo e l'intelligenza artificiale per regolare intonazione, tonalità, enfasi e tempo mentre parlano, in tempo reale, tenendo conto del contesto della conversazione. L'articolo di Apple intitolato "Deep Learning for Siri's Voice" descrive in dettaglio le varie tecniche di deep learning alla base dei miglioramenti della voce Siri di iOS 11.
Secondo il paragrafo iniziale:
Siri è un assistente personale che comunica usando la sintesi vocale. A partire da iOS 10 e proseguendo con le nuove funzionalità di iOS 11, basiamo le voci di Siri sul deep learning. Le voci risultanti sono più naturali, più fluide e consentono alla personalità di Siri di brillare.
I nuovi articoli sono stati pubblicati sul blog ufficiale di Apple Machine Learning Journal, istituito alcune settimane fa per coprire gli sforzi dell'azienda nel campo dell'apprendimento automatico, dell'intelligenza artificiale e della ricerca correlata.
Apple ha proseguito con il blog dopo aver criticato che non poteva assumere le menti più brillanti nell'intelligenza artificiale e nell'apprendimento automatico perché non avrebbe permesso loro di pubblicare i loro lavori.
Il post inaugurale, intitolato "Migliorare il realismo delle immagini sintetiche", è stato pubblicato a luglio. L'articolo approfondito delinea un nuovo metodo per migliorare il realismo delle immagini sintetiche da un simulatore utilizzando dati reali senza etichetta preservando le informazioni di annotazione.