Dar voz a la tecnología: una conversación con Jessica Earley-Cha de Google

Ha habido muchas innovaciones en la comunicación de voz en los últimos cientos de años, desde fonógrafos hasta teléfonos, grabaciones y reproducciones digitales. La humanidad ha dado otro salto adelante en las últimas décadas con tecnologías controladas y de reconocimiento de voz como el Asistente de Google, lo que permite a las personas interactuar, aprender y crear simplemente diciendo: "Hola, Google".
En el último episodio de nuestro podcast, Decoded, hablamos con Jessica Earley-Cha, ingeniera de relaciones con desarrolladores del equipo de Asistente de Google. En esta función, ayuda a los desarrolladores a comprender cómo integrar su contenido y servicios en el Asistente de Google para llegar eficazmente a los usuarios en este nuevo medio.

Subiendo el volumen

En estos días, la voz se siente como si estuviera en todas partes. Google, Apple y Microsoft han incorporado asistentes de voz en sus productos, mientras que los dispositivos de asistente activados por voz ahora se encuentran en hogares de todo el mundo. Sin embargo, Earley-Cha señala que la tecnología aún se encuentra en sus primeras etapas, y los desarrolladores apenas comienzan a arañar la superficie de lo que pueden construir. Ella dijo:

“Donde estamos en voz es donde estábamos en el móvil hace diez años. Era el Salvaje Oeste y todavía estábamos averiguando cosas en ese momento. Me gusta pensar en eso cuando se trata del desarrollo de la voz. Tenemos muchas herramientas, pero no sabemos exactamente cuál es la ideal. ¿Cómo lo comercializas? ¿Dónde encaja dentro del ecosistema más grande? "

Para los desarrolladores acostumbrados a crear aplicaciones con una pantalla y una interfaz táctil, desarrollar para voz puede requerir una forma de pensar completamente nueva. El software tiene que escuchar diferentes idiomas, acentos y señales vocales para comprender la intención del usuario, lo que hace que sea mucho más difícil saber lo que quiere un usuario en comparación con que alguien haga clic en un botón.

Intensificar el enfoque en la intención

“Una cosa es traducir audio en texto cuando alguien sabe que lo están grabando en lugar de cómo habla naturalmente. Luego, cada región tiene su propia forma de hablar sobre las cosas, por ejemplo, "refrescos" versus "refrescos" en los EE. UU. Es lo mismo, pero depende de la región en la que te encuentres ".

… dijo Earley-Cha. Para los hogares bilingües, es posible que la aplicación incluso tenga que interpretar instrucciones de varios idiomas dentro de una sola conversación para no solo entender lo que se dice, sino también saber qué idioma usar para responder.
Con herramientas como Actions Builder y Actions SDK, Google proporciona la funcionalidad para ayudar a resolver la intención para que los desarrolladores puedan concentrarse en sus aplicaciones.

“Nos centramos en el concepto de escena; es esta idea que en este tiempo, ciertas actividades sucederán. Estamos brindando a los desarrolladores ese tipo de herramientas para ayudarlos a atar algo tan etéreo y hacer que algo que no es concreto sea más concreto ".

Al utilizar el aprendizaje automático para comprender el contexto, los usuarios pueden interactuar con la voz de una manera holística y conversacional en lugar de de una manera estructurada y antinatural.

El futuro de la voz

El objetivo de Earley-Cha y su equipo es ayudar a los desarrolladores a construir una base para el desarrollo de voz.

"Espero que llegue un día en el que tengamos estas rutas comunes o recorridos del usuario que faciliten las cosas para los desarrolladores, como el recorrido del usuario para el pago, la realización de un pedido o la visualización del inventario. Luego, un desarrollador puede concentrarse en agregar la información que necesita que sea única para su experiencia. Porque eso es lo que hicimos con todas las demás plataformas en las que ya no construimos desde cero. Descarga código repetitivo y construye a partir de eso, y desarrolla diferentes piezas ".

En el futuro, los desarrolladores deberán pensar fuera de la pantalla para asegurarse de que sus aplicaciones estén optimizadas para voz. Esto requerirá que desarrollen más flexibilidad y fluidez en su trabajo, así como que trabajen con diseñadores de conversación que comprendan cómo los usuarios interactúan con la voz.

“No es como una GUI en la que puedes ofrecer dos botones y eso es todo lo que puede hacer un usuario. No puedes simplemente crear algo con Voice como desarrollador; necesitas un diseñador que comprenda la elección de palabras y cómo se comunican las personas ".

Consulte el podcast Decoded para obtener más información sobre cómo Jessica Earley-Cha y Google ayudan a los desarrolladores a crear aplicaciones y servicios basados en voz. Escuche ahora y suscríbase a episodios futuros hoy.
Esta publicación apareció por primera vez en el blog de OutSystems

Erica Flores

Enamorada de la tecnología. Apasionada de la velocidad que la información puede adquirir en este mundo cambiante. Actualmente residiendo en Barcelona.