Categoría: smartphone

La nueva AI de reconocimiento de escritura a mano de Gboard comete hasta un 40% menos de errores



Google ha mejorado el reconocimiento de escritura a mano en Gboard, el teclado virtual para dispositivos iOS y Android, con un sistema de AI más rápido que ofrece entre un 20 y un 40 por ciento menos que los modelos de aprendizaje automático que reemplaza. Según los investigadores de Google AI, quienes describen su trabajo en una publicación de blog que se ha publicado esta tarde. "El progreso en el aprendizaje automático ha permitido nuevas arquitecturas de modelos y metodologías de capacitación, lo que nos permite revisar nuestro enfoque inicial. [and] En lugar de construir un solo modelo, escribieron los expertos en software, Sandro Feuz y Pedro Gonnet. Gbo a principios de año. "Como explican Feuz y Gonnet, la mayoría de los identificadores de escritura a mano utilizan caracteres latinos reconocibles, y las entradas dibujadas aparecen como una serie de trazos, y estas líneas son a su vez secuencias de puntos con marca de tiempo. Curvas de Bezier: curvas paramétricas que se usan a menudo en gráficos de computadora La principal ventaja de estas secuencias, Feuz y Gonnet, es que son más compactas que el conjunto subyacente de puntos de entrada, por lo que cada curva está representada por un polinomio (por expresión de variables y coeficientes) definido por puntos de inicio, puntos finales y puntos de control. la letra "G" y dos curvas para la letra "O". Estas series se ingresan específicamente, una versión bidireccional de redes neuronales casi recurrentes (QRNN & # 39; s), una red capaz de una paralelización "eficiente" y por lo tanto, buen desempeño predictivo, por lo que es importante que los QRNN retengan el número de pesos, la fuerza de Las conexiones entre las funciones matemáticas o los nodos que conforman la red, relativamente pequeños, reducen el tamaño del archivo. Entonces, ¿cómo viene el modelo AI para las curvas? Al producir una matriz de columnas y filas, cada columna corresponde a una curva de entrada y cada fila con una letra en el alfabeto. Las salidas de la red se combinan en un idioma y multas para series inusuales. Por separado, el conjunto de puntos de contacto se convierte en una secuencia más corta que corresponde a una sola curva. Finalmente, el reconocedor basado en QRNN escupe una serie de probabilidades de caracteres dada una serie de curvas. La pila de reconocimiento de escritura a mano de Gboard se ejecuta en el dispositivo, un logro que logró el equipo al convertir los modelos de reconocimiento (que están capacitados en el marco de aprendizaje automático TensorFlow de Google) en modelos TensorFlow Lite. Implementación de TensorFlow, pero para reducir el espacio de almacenamiento de Gboard. "Continuemos desarrollando los reconocedores del lenguaje de escritura latina", escriben Feuz y Gonnet. "El equipo de escritura a mano ya está ocupado lanzando nuevos modelos para todos nuestros lenguajes de escritura a mano en Gboard".



Source link

A %d blogueros les gusta esto: