Aportes de la inteligencia artificial a los conversores texto a voz

Anciano con dispositivo y auriculares

En este artículo conversaremos sobre las tecnologías de conversión texto a voz -o motores TTS, su importancia para el acceso al texto escrito y las mejoras que les han aportado las inteligencias artificiales. Finalizaremos con algunos ejemplos de motores TTS que utilizan la inteligencia artificial y que además, tienen interfaces en español.

¿Qué son los motores TTS?

Un motor TTS es una herramienta que convierte texto escrito en voz hablada. Es decir, toma un texto escrito y lo transforma en un archivo de audio que puede ser escuchado como si alguien lo estuviera leyendo en voz alta.

Los conversores de texto a voz utilizan una tecnología llamada síntesis de voz, que combina diferentes elementos para generar una voz artificial que suena lo más natural posible. Estos elementos incluyen el texto a leer, las reglas gramaticales, la entonación y la pronunciación de las palabras, entre otros.

Los conversores de texto a voz son útiles para personas con ceguera, con dificultades visuales, con dislexia o bien, que prefieran escuchar en lugar de leer, por ejemplo mientras conducen o hacen ejercicio. También son utilizados en la creación de audiolibros, videos educativos y otros contenidos multimedia. Algunas de ellas solo permiten la lectura en voz alta del contenido en la pantalla; otras también habilitan la traducción de un texto en audio y la descarga del archivo sonoro para incorporarlo en otros recursos. Por ello se dice que

Los motores de conversión texto a voz, TTS, mejoran la experiencia de usuario en relación con el texto escrito puesto que, además de hacerlo accesible le aumentan su usabilidad.

Aportes de la IA a los motores TTS

La inteligencia artificial ha permitido mejoras significativas en la calidad, flexibilidad, eficiencia y capacidad de los motores TTS para sintetizar voces a partir de texto:

  • Mejoras en la calidad de la voz: los algoritmos de aprendizaje profundo utilizados en la IA pueden modelar patrones complejos en los datos de voz y producir voces más naturales y expresivas. Estos modelos se entrenan en grandes conjuntos de datos de voz humana para capturar la variabilidad y la riqueza de la voz humana.
  • Mayor flexibilidad y personalización: la IA también ha permitido una mayor flexibilidad en la síntesis de voz, lo que permite a los usuarios personalizar las voces según sus preferencias. Esto incluye la capacidad de ajustar la velocidad, el tono, la entonación y la intensidad de la voz.
  • Mayor eficiencia: la IA ha permitido la creación de motores TTS más eficientes, lo que significa que pueden procesar grandes cantidades de texto en poco tiempo. Esto es especialmente importante para las aplicaciones de voz en tiempo real, como los asistentes virtuales, que requieren una respuesta rápida.
  • Mayor capacidad para lidiar con diferentes idiomas y acentos: los motores TTS basados en IA pueden aprender a sintetizar voces en diferentes idiomas y acentos a partir de datos de voz de hablantes nativos. Esto es útil para aplicaciones que necesitan soportar múltiples idiomas y dialectos.

Ejemplos de conversores TTS que utilizan la IA

Aquí listamos 7 opciones de conversores de texto a voz que utilizan la inteligencia artificial y que además, tienen una interfaz en español:

  1. Amazon Polly: Amazon Polly es un servicio de texto a voz en la nube que utiliza inteligencia artificial para crear voces naturales. Ofrece voces en español de España y de América Latina. La versión gratuita permite generar hasta 5 millones de caracteres por mes durante un año.
  2. IBM Watson Text to Speech: IBM Watson es una plataforma de inteligencia artificial que incluye un conversor de texto a voz en español. Muestra diferentes voces y estilos para elegir. La versión gratuita permite generar hasta 10.000 caracteres por mes.
  3. Google Cloud Text-to-Speech: Este motor TTS de Google lector de pantalla utiliza la tecnología de síntesis de voz WaveNet, que emplea redes neuronales para generar voces más naturales y expresivas. Este motor TTS admite varios idiomas, incluido el español.
  4. Google Texto a voz: Google tiene su propio convertidor de texto a voz en español que aplica inteligencia artificial y habilita su uso gratuito desde Google Translate. Se puede pegar o escribir texto y elegir una voz en español para que lo lea.
    • Read Aloud: Extensión para Google Chrome que habilita la lectura en voz alta de páginas webs y documentos de textos. Permite personalizar la voz, aumentar la velocidad y el volumen; su menú de lectura facilita controlar la navegación y el avance -o retroceso- en la lectura.
  5. Mozilla TTS: Esta extensión para el navegador Mozilla es un motor TTS de código abierto y gratuito. Usa una arquitectura basada en redes neuronales para sintetizar voces más naturales y expresivas en varios idiomas, incluido el español.
  6. Overdub, de Descript: es un reproductor de voz que funciona mediante un algoritmo cuyo objetivo fundamental es diseñar voces a medida lo más naturales y espontáneas posible.  La versión gratuita posibilita generar 30 segundos de audio por día o 1 hora por mes.
  7. Speaktor: Es un conversor TTS que se caracteriza por una interfaz muy sencilla y amigable. Además, por tener voces masculinas y femeninas en el español hablado en la mayoría de los países de América Latina. Tiene una versión gratuita reducida.

Si te ha gustado este artículo, regálanos un comentario y difúndelo en tus redes y espacios digitales.


mujer con pilas de libros

Las fuentes de este artículo y de los demás contenidos del sitio están listadas en esta Bibliografía.

La redacción del texto se ha realizado en diálogo con herramientas de inteligencia artificial.



Publicado por Diana Rodríguez

Soy profesional de información argentina. Desde 2007 dirijo INFORMACIÓN Y TIC y brindo talleres y conferencias en plataforma propia y a través de organizaciones de prestigio nacional e internacional. Me he propuesto difundir la inclusión digital como valor social, comunitario y profesional y aportar a la gestión de contenidos digitales inclusivos.

Español de Argentina
Powered by TranslatePress »
A %d blogueros les gusta esto: