MLCommons y Hugging Face presentan un conjunto de datos de voz para IA

En un esfuerzo por impulsar la investigación en tecnología del habla, MLCommons, un grupo sin fines de lucro enfocado en la seguridad de la inteligencia artificial, se ha asociado con Hugging Face para lanzar uno de los conjuntos de datos más grandes del mundo de grabaciones de voz de dominio público. Este conjunto de datos, denominado Unsupervised People’s Speech, contiene más de un millón de horas de audio en al menos 89 idiomas, lo que representa un avance significativo en la accesibilidad de recursos para la investigación en inteligencia artificial.

Un recurso valioso para la investigación en IA

MLCommons ha declarado que la creación de este conjunto de datos fue motivada por el deseo de apoyar la investigación y el desarrollo en diversas áreas de la tecnología del habla. En un comunicado, la organización enfatizó que “apoyar la investigación en procesamiento de lenguaje natural para idiomas distintos al inglés ayuda a llevar las tecnologías de comunicación a más personas en todo el mundo”. Este enfoque inclusivo es fundamental para el desarrollo de modelos de habla que puedan reconocer y sintetizar voces en una variedad de acentos y dialectos, lo que podría beneficiar a comunidades lingüísticas menos representadas.

Los riesgos de los conjuntos de datos de IA

A pesar de los beneficios potenciales, el uso de conjuntos de datos como Unsupervised People’s Speech también conlleva riesgos. Uno de los principales problemas es la posibilidad de sesgos en los datos. La mayoría de las grabaciones provienen de Archive.org, una plataforma conocida por su archivo web, pero que tiene una alta representación de hablantes de inglés, especialmente del inglés americano. Esto significa que, sin un filtrado cuidadoso, los modelos de IA entrenados con estos datos podrían replicar prejuicios existentes, dificultando la transcripción de voces no nativas o la generación de voces sintéticas en otros idiomas.

La importancia de la ética en la creación de datos

Además, existe la preocupación de que algunas grabaciones provengan de personas que no eran conscientes de que sus voces se utilizarían para fines de investigación en IA. Aunque MLCommons asegura que todas las grabaciones son de dominio público o están bajo licencias de Creative Commons, la falta de información clara sobre la licencia en muchos conjuntos de datos de IA plantea interrogantes sobre la ética en su uso. Activistas como Ed Newton-Rex han argumentado que los creadores no deberían tener que optar por salir de estos conjuntos de datos, ya que el proceso puede ser confuso y poco accesible.

MLCommons ha manifestado su compromiso de actualizar y mejorar la calidad de Unsupervised People’s Speech, pero es crucial que los desarrolladores manejen estos recursos con cautela. La creación de tecnologías de IA responsables y éticas es un desafío que requiere atención constante y un enfoque inclusivo que considere las voces de todos los hablantes.