Saltar al contenido
ᐅ HielosMendez – Información digital que te dejara helado 🧊🥶

Nvidia presenta tecnología de inteligencia artificial conversacional para bots más inteligentes

Ahora que casi todos los dispositivos y dispositivos móviles posibles han adoptado o al menos experimentado con el control por voz, la IA conversacional se está convirtiendo rápidamente en la nueva frontera. En lugar de manejar una consulta y proporcionar una respuesta o acción, la IA conversacional tiene como objetivo proporcionar un sistema interactivo en tiempo real que puede abarcar múltiples preguntas, respuestas y comentarios. Si bien los bloques de construcción fundamentales de la IA conversacional, como BERT y RoBERTa para el modelado de lenguaje, son similares a los del reconocimiento de voz de una sola vez, el concepto viene con requisitos de rendimiento adicionales para el entrenamiento, la inferencia y el tamaño del modelo. Hoy, Nvidia lanzó tres tecnologías de código abierto diseñadas para abordar esos problemas.

Entrenamiento más rápido de BERT

Nvidia DGX SuperPODSi bien en muchos casos es posible utilizar un modelo de lenguaje previamente entrenado para nuevas tareas con solo algunos ajustes, para un rendimiento óptimo en un contexto particular, el reentrenamiento es una necesidad. Nvidia ha demostrado que ahora puede entrenar BERT (el modelo de lenguaje de referencia de Google) en menos de una hora en un DGX SuperPOD que consta de 1.472 GPU Tesla V100-SXM3-32GB, 92 servidores DGX-2H y 10 Mellanox Infiniband por nodo. No, ni siquiera quiero intentar estimar cuál es el alquiler por hora de uno de esos. Pero dado que los modelos como este suelen tardar días en entrenarse incluso en clústeres de GPU de gama alta, esto definitivamente ayudará a tiempo de comercialización para las empresas que pueden pagar el costo.

Inferencia de modelos de lenguaje más rápida

Para conversaciones naturales, el punto de referencia de la industria es un tiempo de respuesta de 10 ms. Comprender la consulta y proponer una respuesta es solo una parte del proceso, por lo que necesita menos de 10 ms. Al optimizar BERT usando TensorRT 5.1, Nvidia lo tiene haciendo inferencias en 2.2ms en una Nvidia T4. Lo bueno es que un T4 está al alcance de casi cualquier proyecto serio. Los usé en Google Compute Cloud para mi sistema de generación de texto. Un servidor virtual de 4 vCPU con un T4 alquilado por poco más de $ 1 / hora cuando hice el proyecto.

Soporte para modelos aún más grandes

Se necesita una inferencia más rápida para la IA conversacionalUno de los talones de Aquiles de las redes neuronales es el requisito de que todos los parámetros del modelo (incluida una gran cantidad de pesos) deben estar en la memoria a la vez. Eso limita la complejidad del modelo que se puede entrenar en una GPU al tamaño de su RAM. En mi caso, por ejemplo, mi escritorio Nvidia GTX 1080SEEAMAZON_ET_135 Ver el comercio de Amazon ET Solo puede entrenar modelos que quepan en sus 8GB. Puedo entrenar modelos más grandes en mi CPU, que tiene más RAM, pero lleva mucho más tiempo. El modelo de lenguaje GPT-2 completo tiene 1.500 millones de parámetros, por ejemplo, y una versión extendida tiene 8.300 millones.

Sin embargo, Nvidia ha ideado una forma de permitir que varias GPU trabajen en la tarea de modelado del lenguaje en paralelo. Al igual que con los otros anuncios de hoy, han abierto el código para que esto suceda. Tendré mucha curiosidad si la técnica es específica para modelos de lenguaje o si se puede aplicar para permitir el entrenamiento de múltiples GPU para otras clases de redes neuronales.

Junto con estos desarrollos y la publicación del código en GitHub, Nvidia anunció que se asociarán con Microsoft para mejorar los resultados de búsqueda de Bing, así como con Clinc en agentes de voz, Passage AI en chatbots y RecordSure en análisis de conversaciones.