Alexa siempre está escuchando pero no grabando continuamente. No envía nada a los servidores en la nube hasta que te escucha decir la palabra de activación (Alexa, Echo o Computadora). Pero escuchar las palabras para despertar es más difícil de lo que piensas.
El hardware Echo no es tan inteligente. Sin Internet, cualquier solicitud o pregunta que haga fallará. Esto se debe a que sus órdenes se envían a la nube para su interpretación y decisiones. Amazon no quiere que se graben todas las conversaciones que tiene frente a un altavoz inteligente, sino solo los comandos que le da al altavoz inteligente. Por esta razón, la empresa emplea una palabra de activación para llamar la atención del hablante inteligente. Para lograr esto, Amazon usa una combinación de micrófonos afinados, un búfer de memoria corto y entrenamiento de redes neuronales.
Los micrófonos afinados señalan su voz
Los altavoces del asistente de voz, como Echo y Echo Dot, suelen tener varios micrófonos integrados. El Echo Dot, por ejemplo, tiene siete. Esa matriz brinda a los dispositivos varias capacidades, desde escuchar comandos hablados a distancia hasta separar el ruido de fondo de las voces.
Este último es especialmente útil para la detección de palabras de activación. Usando sus múltiples micrófonos, el Echo puede señalar su ubicación en relación con el lugar donde está sentado y escuchar en esa dirección mientras ignora el resto de la habitación.
Ves esto en acción cada vez que usas la palabra de activación. Párese al lado de un Echo o Echo Dot y diga la palabra de activación. Observe que el anillo se ilumina en azul oscuro y luego en un azul más claro a medida que circula y "apunta" hacia usted. Ahora, muévase varios pasos hacia un lado y diga la palabra de activación una vez más. Observe que las luces celestes le siguen.
Saber dónde se encuentra ayuda a que el dispositivo se concentre mejor en usted y desconecte los ruidos que provienen de otros lugares.
La memoria corta evita que el altavoz sostenga demasiado
Los dispositivos Echo tienen mucho espacio de almacenamiento, pero no usan mucho. Según Rohit Prasad, vicepresidente de Amazon y científico principal de Alexa Artificial Intelligence, un Echo solo puede almacenar físicamente unos pocos segundos de audio.
Al reducir su capacidad, Amazon no solo le brinda más privacidad (es un lugar menos donde se almacena su voz) sino que también evita que Echo escuche conversaciones completas, lo que limita su enfoque a encontrar la palabra de activación.
Imagina que tienes un casete de tres segundos y una grabadora. Supongamos que después de llegar al final, la cinta se repite una y otra vez hasta el principio. Si comenzaras a grabar una conversación, todo lo que dijiste hace cuatro segundos se borrará y se grabará de inmediato. Eso es lo que hace un Amazon Echo.
Graba continuamente pero borra todo lo que acaba de grabar al mismo tiempo. Esa poca capacidad de atención significa que todo lo que puede escuchar es la palabra "Alexa" y no mucho más. Sin embargo, tres segundos es suficiente para que esa palabra se registre, se examine y se actúe de manera adecuada.
El entrenamiento de redes neuronales ayuda con la coincidencia de patrones
La idea es cubrir cada inflexión y acento, pero también el contexto. Amazon quiere que su eco para reconocer la diferencia cuando se habla de ella, cuando se habla sobre él, o, tal vez, cuando se habla de una persona llamada Alexa. Los micrófonos direccionales también ayudan con ese objetivo.
Con cada palabra que escucha el Echo, transmite audio a través de capas de algoritmos. Cada capa está diseñada para descartar falsos positivos, buscando sonidos parecidos o pistas de contexto. Si pasa la verificación de una capa, la palabra pasa a la siguiente. Finalmente, cuando el dispositivo local decide que escuchó la palabra de activación, comienza a grabar y transmitir el audio a los servidores en la nube de Amazon. Amazon emplea cuatro algoritmos: uno para cada palabra de activación (Alexa, Computadora, Echo) y otro para Alexa Guard, que trata sonidos específicos, como la rotura de cristales, como una palabra de activación.
Pero incluso cuando se produce una coincidencia, Amazon sigue ejecutando comprobaciones más complicadas. ¿Ha notado que cuando alguien pronuncia la palabra Alexa en un programa de televisión o comercial, por lo general no obtiene una respuesta de su Echo? Eso es porque Amazon también realiza una verificación en la nube.
Las comprobaciones en la nube descartan algunos falsos positivos
Cuando las empresas hacen comerciales con Alexa, pueden enviar el audio a Amazon. La compañía ejecuta el audio a través de algoritmos de coincidencia de patrones similares que se utilizan para identificar la palabra de activación. Una vez que esa instancia exacta está completamente catalogada, se agrega a una base de datos.
Como parte del proceso al llegar a la nube, su Echo incluye información sobre la palabra de activación que escuchó y verifica esa base de datos. Siempre que encuentra una coincidencia, Amazon le indica a su Echo que ignore la palabra de activación, apague y descarte cualquier audio grabado.
Además, Amazon busca instancias de la palabra de activación pronunciada simultáneamente. No todas las empresas envían audio a Amazon, por lo que se le ocurrió una solución de copia de seguridad novedosa. Después de comprobar si hay una coincidencia en la base de datos, la empresa compara la impresión de la palabra de activación con cualquier otra instancia que llegue al mismo tiempo. Es poco probable que dos personas que dicen que Alexa simultáneamente suenen exactamente iguales, por lo que si hay una coincidencia, Amazon sabe que es probable que sea un comercial o un programa de televisión e ignora la solicitud.
A pesar de todas las comprobaciones, todavía se producen falsos positivos. Puede escuchar lo que su Echo ha grabado en el centro de privacidad de Amazon, y es probable que encuentre al menos un falso positivo en el grupo. Pero la tecnología se mejora continuamente y, eventualmente, a Amazon le gustaría que funcione sin una palabra de alerta.
0 Comentarios