Un avance significativo en la inteligencia artificial
La empresa de tecnología Sesame ha dado un paso importante en el desarrollo de asistentes de voz con el lanzamiento de su modelo base, conocido como CSM-1B. Este modelo, que cuenta con 1 mil millones de parámetros, está diseñado para generar códigos de audio a partir de entradas de texto y audio. La tecnología subyacente, denominada residual vector quantization (RVQ), permite una codificación eficiente del audio, lo que resulta en una calidad de voz sorprendentemente realista.
Características del modelo CSM-1B
El modelo CSM-1B, que se encuentra bajo una licencia Apache 2.0, puede ser utilizado comercialmente con pocas restricciones. Esta flexibilidad es un atractivo para desarrolladores y empresas que buscan implementar tecnología de voz en sus productos. Sin embargo, Sesame advierte que el modelo no ha sido ajustado para imitar voces específicas, lo que limita su uso en aplicaciones que requieren personalización de voz. A pesar de esto, el modelo tiene cierta capacidad para manejar idiomas distintos al inglés, aunque su rendimiento en estos casos puede no ser óptimo.
Preocupaciones sobre la seguridad y el uso ético
A pesar de las innovaciones, existen preocupaciones sobre la falta de salvaguardias en el uso del modelo. Sesame ha implementado un sistema de honor, instando a los desarrolladores a no utilizar el modelo para imitar voces sin consentimiento o para crear contenido engañoso. Esta falta de controles significativos ha llevado a críticas sobre el potencial de abuso de la tecnología, especialmente en un momento en que la clonación de voz se está volviendo cada vez más accesible. Recientemente, Consumer Reports advirtió que muchas herramientas de clonación de voz en el mercado carecen de medidas efectivas para prevenir fraudes.
El futuro de los asistentes de voz
Sesame, cofundada por Brendan Iribe, ha ganado atención por su tecnología de asistentes, que se acerca a superar el valle inquietante en la interacción humano-máquina. Los asistentes de voz de la compañía, como Maya y Miles, son capaces de realizar pausas y hablar con disfluencias, lo que les permite interactuar de manera más natural con los usuarios. Además, Sesame está explorando la creación de gafas de IA que incorporen sus modelos personalizados, lo que podría abrir nuevas posibilidades en la forma en que interactuamos con la tecnología en nuestra vida diaria.