Creando conversaciones desde Japón para el mundo
Mientras Samsung continúa siendo pionero en experiencias premium de IA móvil, visitamos los centros de investigación de Samsung en todo el mundo para conocer cómo Galaxy AI permite que más usuarios maximicen su potencial. Galaxy AI ahora admite 16 idiomas, por lo que más personas pueden ampliar sus capacidades lingüísticas, incluso sin conexión, gracias a la traducción en el dispositivo con funciones como Traducción simultánea, Intérprete, Asistente de notas y Asistente de navegación. Pero ¿qué implica el desarrollo del lenguaje de IA? La última vez visitamos Polonia para comprender cómo los países europeos colaboran para lograr sus objetivos. Esta vez, estamos en Japón para ver cómo los desarrolladores se adaptan constantemente a los nuevos escenarios y casos de uso.
El Instituto de Investigación y Desarrollo de Japón (SRJ) se creó para ser un centro de I+D centrado en hardware, como electrodomésticos y pantallas. Con la demanda de innovación en IA aumentando en todo el mundo, SRJ en Yokohama también ha estado operando un laboratorio de desarrollo de software para crear la función de Traducción Simultánea de Galaxy AI que, desde finales del año pasado, traduce automáticamente las llamadas de voz en tiempo real.
«La función de Traducción Simultánea es especialmente útil en los viajes, como en el caso de quienes acudan a los Juegos Olímpicos de este año en París», afirma Takayuki Akasako, director de Inteligencia Artificial de SRJ. «Actualmente estamos desarrollando un programa de reconocimiento de voz para personas que hacen turismo y van a ver los Juegos Olímpicos de París y entrenando el programa de reconocimiento de voz para aprender sobre los Juegos y las ubicaciones de los estadios para París 2024».
Comprensión del contexto en el reconocimiento de voz
Para aquellos que ya utilizan las funciones de traducción de Galaxy AI, estas funcionalidades pueden parecer muy útiles. Pero los desarrolladores que las han creado saben que poder comunicarse en el extranjero no es algo que se pueda dar por sentado.
Una cosa que el equipo notó fue que hay más homónimos en japonés que en otros idiomas. Por ejemplo, palillos (Hashi) y puente (Hashi) son relativamente fáciles de distinguir debido a la diferencia de entonación, pero palabras como turismo (Kankō), costumbres (Kankō), público (Kōkyō) y prosperidad (Kōkyō) deben interpretarse según el contexto.
Desafíos en la recopilación de datos eficientes
Si bien es importante reconocer los tipos de datos necesarios, recopilar los datos en sí mismo es un desafío aparte. Anteriormente, el equipo de SRJ utilizaba datos grabados por personas para entrenar el motor de reconocimiento de voz para la función de Traducción Simultánea, lo que no nos llevaba a una recopilación de datos suficiente.
Samsung Gauss, el modelo de lenguaje grande (LLM, por sus siglas en inglés) de la compañía, utiliza guiones para estructurar oraciones con palabras o expresiones que son relevantes para cada escenario.
Los datos recopilados con Samsung Gauss no sólo los graban las personas, sino que también los generan datos de síntesis de voz text-to-speech (TTS), por medio de los cuales las personas realizan la verificación de calidad final. Con este método, el equipo ha observado una mejora significativa en la eficiencia de la recopilación de datos.