Categoría: speech recognition

Los investigadores de Alexa mejoran los errores de KI hasta en un 30% al reducir el desequilibrio en los datos



Los datos de entrenamiento desequilibrados son un obstáculo importante para los clasificadores, es decir, los sistemas de aprendizaje automático que clasifican en clases. Cada vez que una categoría de muestreo aleatorio contribuye desproporcionadamente a un corpus, más a menudo que otros, existe el riesgo de tener una preferencia por él. Investigadores de la división Alexa de Amazon dicen que han desarrollado una técnica que puede reducir las tasas de error en algunos sistemas no balanceados de datos hasta en un 30 por ciento. Lo describieron en la primavera de esta primavera en un artículo recientemente publicado ("Incrustación profunda para la detección de eventos de audio raros con datos desequilibrados") en la Conferencia Internacional sobre Acústica, Voz y Procesamiento de Señales en Brighton. Normalmente, los científicos de datos se enfocan en el problema de ejemplo no representativo considerando & # 39; & # 39; en clases subrepresentadas, es decir, para darles más valor. Pero Ming Sun, un científico del habla en el grupo Alexa Speech y autor principal del artículo, exige un enfoque diferente. Él y sus colegas practicaron en el sistema de representaciones matemáticas de datos y maximizan la distancia entre esos vectores. Para evitar el desequilibrio en las incrustaciones, las clases de datos que eran más grandes que las otras, divididas en grupos, eran aproximadamente del tamaño de la clase más pequeña. Se calcula la distancia promedio de todos los puntos del grupo. Las salidas de la IA incorporada completamente entrenada se usaron como datos de entrenamiento para un clasificador que usa etiquetas para ingresar datos y luego probar cuatro tipos de sonidos del conjunto de datos "estándar de la industria": incendios de perros, llantos de bebés, disparos de armas y ruidos de fondo. Los experimentos con la integración con una red de memoria a largo plazo (LSTM) larga mostraron una mejora del rendimiento del 15 al 30 por ciento y un total del 22 por ciento. Y en una red neuronal convolucional (CNN) más grande, más lenta y más precisa, Sun y sus coautores registraron una reducción de errores del 6 al 19 por ciento, según la proporción de las clases de datos.



Source link

A %d blogueros les gusta esto: