Reconocimiento de voz

En esta nueva entrada tratará acerca del reconocimiento de voz.

En los últimos años se ha planteado la posibilidad de poder recrear la capacidad de reconocimiento de la voz de los seres humanos. El objetivo es permitir la interacción entre el hombre y la máquina mediante comandos hablados o ciertas expresiones más complejas. Para ello, debemos detectar, procesar y reconcer los sonidos.

Sin embargo, este, aparentemente simple, proceso entraña bastante dificultad, en los últimos años varias universidades inglesas, alemanas, y estadounidenses principalmente, así como varias empresas como Sony y Apple han trabajado en el desarrollo de software que fuera capaz de desarrollar estas funciones. Generalmente la forma de trabajar de estos sistemas consiste en dividir el lenguaje humano el alófonos, es decir los distintos fonemas, sin tener la consideración de posibles variaciones. Una vez hemos conseguido dividir los sonidos en los distintos alófonos que lo componen podemos procesarlos y obtener así la información que queriamos transmitir.

Una vez partimos de esta base común, cada sistema se difiere del resto según una serie de parámetros.

-Continuidad: Este parámetro determina la velocidad de encadenamiento entre las palabras que puede reconocer el programa. Este parámetro es muy importante, porque aunque en situaciones ideales la pausa entre las palabras es muy amplia, en el legunaje diario tendemos a encadernarlas.

-Robustez: Determina la capacidad de trabajo que presenta el sistema ante una situación ruidosa de fondo. La importancia de esta característica viene determinada por el ruido presente ante casi cualquier situación de comunicación.

-Tamaño del dominio: Permite conocer el número de palabras que un sistema puede llegar a reconocer, y puede variar desde unas decenas a cientos.

-Dependencia del hablante: Indica si el sistema está especialmente preparado para la dicción y la forma de hablar de algun individuo general, de un equipo de personas en particular o de forma más general se adapta al usuario.

Estos parámetros permiten  caracterizar los distintos sistemas. Debido a la dificultad que entraña generalmente los distintos sistemas disponibles que se han ido desarrollando suelen priorizar una de las anteriores características, desde la robustez, a la no dependencia del hablante, mientras que restan importancia a las otras. Así, por ejemplo puedes tener un sistema que presente una protección ante el ruido muy elevada, y que por tanto pueda ser utilizado habiendo maquinaria o aparatos que emitan sonido cerca, pero que sin embrago solo este pensado para la forma de hablar de una persona y si cambias de interlocutor el sistema comete una gran cantidad de fallos.

Por tanto, como resumen, podemos comentar que este campo de investigación presenta una gran dificultad, ya que los seres humanos somos capaces de reconocer, aislar, despreciar y distinguir distintos sonidos del lenguaje común como: tartamudeos, repeticiones, cambios de tono, abreviaturas, o modificaciones en las palabras, mientras que una máquina al no poseer esta característica encuentra mucho mas difícil situaciones tan normales como entender a personas con distintos acentos regionales. A pesar de esto último, los avances en este campo se han disparado en los últimos años y es posible conseguir sistemas medianamente buenos de reconocimiento simplemente usando internet.

Acerca de Codificando Escarabajos

Blog de música!
Esta entrada fue publicada en Tecnología en el audio y la música. Guarda el enlace permanente.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s