El lenguaje de máquina: cómo Siri recoge su voz?
Makradar De La Tecnología / / December 19, 2019
Google, Apple, Microsoft, Amazon e incluso están desarrollando activamente sus servicios de voz. Recién horneado en iOS 7 es la misma Siri, sólo las nuevas funciones y... de voz. ¿Se pregunta cómo es este proceso? Mientras que las computadoras se les enseña el habla? este verdadero arte.
Para cada una de las voces Siri - el actor. Una vez que ha completado su papel en la articulación, el trabajo no ha hecho más que empezar... La voz del hombre continúa su viaje. La historia de este viaje, tanto de hombre como de robot - uno de los procesos tecnológicos más complejos, que no pudo ser llevado a cabo hace diez años.
Vamos a conocer con el director de diseño y desarrollo de la voz de Nuance, es una de las mayores compañías independientes en el mundo que se ocupan de reconocimiento de voz y de texto a voz. Brant Ward (J. Brant Ward) que solía ser un compositor, componga el partido para cuartetos de cuerda a los sintetizadores, y ahora que lo componen mediante el uso de voces sintéticas. Trabaja en la industria de la síntesis de voz en Silicon Valley durante más de una década.
Texto a Voz - una industria muy competitiva, y sus empleados es muy reservado. Aunque el mundo y cree que Nuance crea la voz de Siri para, Ward y su colega David Vasquez (David Vázquez) evitar una respuesta directa. Sin embargo, estuvieron de acuerdo para explicar, al menos en términos generales, cómo el proceso de creación de un sorprendente califican máquina.
Ni que decir tiene, no hay necesidad de articular y escribir cada palabra del diccionario. Pero cuando se trata de la aplicación, que debe ser leído ninguna noticia en su boletín de noticias, o encontrar algo para usted en Internet, es simplemente obligado a hablar cada palabra en el diccionario.
La mayoría de las propuestas se seleccionan en un "fonética riqueza" - es decir, que contienen diferentes combinaciones de fonemas. "El hecho es que, cuantos más datos tengamos, más realista el resultado será", - dice Ward.
Después de que el texto se graba actor de voz en directo (un proceso tedioso que puede durar varios meses), se inicia un trabajo muy duro. Las palabras y las frases se analizan, dividido por categorías y se registra en una base de datos de gran tamaño. En este trabajo complejo que participan un equipo de lingüistas dedicados, así como utilizar su propio software lingüístico.
Cuando todo esto se hace, la unidad de Nuance para traducir el texto a voz crea palabras y frases de bits que el actor puede En realidad nunca han hablado, pero suena muy similar al discurso del actor, porque técnicamente es la voz actor.
Proceso de hablar es inconsciente. Lo hacemos sin pensar en cómo se produce este proceso: la situación en la que es nuestra lengua, que se construyen las relaciones entre fonemas, y así sucesivamente - a facilidad y eficacia expresar ideas complejas y las emociones. Sin embargo, con el fin de que el equipo recogió el sonido de voces humanas, todos estos factores deben ser tenidos en cuenta. Como un profesor de lingüística, es la tarea de "Titanic".
Usted no debe pensar: "Estoy hablando con un ordenador." Por lo general, no es necesario pensar en ello.
"Mis hijos interactúan con Siri, como si se tratara de un ser vivo... No sienten la diferencia", - dice Ward.
Hasta el momento, y para la amistad entre los seres humanos y los robots - como los seres humanos. A muchas personas les gustaría que Siri puede reconocer el estado emocional del hablante, y de alguna manera a reaccionar a ella (por ejemplo, incluir un modo suave voz). Imagínese - para hablar con el robot, que está moralmente se palmadita en la cabeza. Tal vez, Nuance ya está pensando en ello ...