No un modelo más grande, sino una arquitectura más inteligente: ¿Qué prometen los modelos de lenguaje recursivo (RLM)?

Aunque los modelos de lenguaje grande (LLM) han ampliado rápidamente las ventanas de contexto en los últimos años, la pérdida de rendimiento en textos muy largos y complejos sigue siendo un problema grave. Este problema, llamado «pudrición del contexto» y puede traducirse como «pudrición del contexto», puede provocar que la información no se utilice de manera efectiva, sin importar cuánto texto se le dé al modelo. Recientemente llamó la atención en el mundo de la investigación. Modelos de lenguaje recursivo (RLM) Este enfoque aborda este problema desde un lugar diferente: en lugar de amplificar el contexto, cambia la forma en que se gestiona el contexto.

¿Qué son los modelos de lenguaje recursivo (RLM)?

investigadores del MIT Alex L. Zhang, Tim Kraska Y Omar Khattab Los modelos de lenguaje recursivo (RLM), introducidos por los modelos de lenguaje recursivo (RLM), no son un nuevo modelo de inteligencia artificial en el sentido clásico. RLM representa un enfoque arquitectónico en el que los modelos de lenguaje existentes pueden llamarse a sí mismos repetidamente durante el proceso de inferencia, procesando información pieza por pieza a través de una memoria externa mantenida fuera del modelo. Los resultados experimentales del artículo muestran que los LLM clásicos experimentan una pérdida de rendimiento a medida que el contexto se alarga, mientras que el enfoque RLM muestra un rendimiento más estable.

En este sistema, los documentos largos no se cargan directamente en el modelo. Los textos se guardan en un entorno externo que puede posicionarse como una variable o estructura de datos. El modelo divide las piezas que necesita en pequeñas subtareas. El resultado final se crea combinando los resultados intermedios obtenidos de estas subtareas.

De esta forma, el modelo tiene una estructura que permite volver atrás y mirarlo cuando sea necesario, en lugar de intentar «tener en mente» todo el texto al mismo tiempo. En resumen, el modelo puede escribir código para examinar el texto almacenado en un entorno externo, realizar operaciones de filtrado o extracción y volver a llamarse a sí mismo para subtareas cuando sea necesario.

El enfoque RLM no se centra únicamente en ampliar el contexto. Otro punto importante destacado por los investigadores es el uso más inteligente de la potencia computacional en el proceso de inferencia-tiempo. El modelo procede mediante programación dividiendo las tareas en partes, en lugar de intentar procesar todo el contexto a la vez. Este enfoque se basa en la idea de un «proceso de inferencia mejor organizado» en lugar de un «modelo más grande».

RLM se centra en la IA agente y el uso empresarial

Se puede preferir RLM en casos de uso empresarial y de inteligencia artificial cada vez más populares. El enfoque de modelos de lenguaje recursivo puede ofrecer ventajas significativas, especialmente en áreas donde se trabaja con documentos muy extensos, como derecho y finanzas. Además, RLM puede proporcionar eficiencia en el análisis de grandes bases de código y también puede usarse en sistemas de gestión de información corporativa y documentación interna. También podemos decir que RLM proporcionará beneficios notables en agentes de inteligencia artificial que realizan tareas a largo plazo y de múltiples pasos. En este contexto, señalemos que la arquitectura RLM está en armonía natural con el concepto de IA agente. Porque en los RLM, la gestión de la memoria, las llamadas de viajes y los procesos de toma de decisiones de varios pasos ya se convierten en la parte básica del sistema.

En este contexto, se puede ver que el enfoque de los modelos de lenguaje recursivo no es sólo un marco teórico. Un ejemplo compartido en el foro de desarrolladores de Google explica cómo se puede implementar la lógica RLM en el kit de desarrollo del agente (ADK). En esta estructura, los textos largos o conjuntos de datos se mantienen en una variable externa llamada «contexto» en lugar de cargarse directamente en el modelo. El modelo puede realizar operaciones programáticas en este contexto; Por ejemplo, puede filtrar ciertas expresiones, contar o dividir la tarea en partes llamando a subagentes. Este enfoque pone la idea básica de RLM en un marco práctico: el modelo no solo lee el texto, sino que se convierte en parte de un sistema que opera sobre el texto. Por lo tanto, el problema del contexto largo se convierte en un problema de gestión programática en lugar de simplemente una cuestión de ventana simbólica.

Por otro lado, los RLM también tienen sus desafíos. El uso de memoria externa, la estructura de múltiples llamadas y la gestión de subtareas complican seriamente la arquitectura del sistema. Además, puede existir riesgo de latencia en escenarios de uso en tiempo real.

En lugar de aumentar la capacidad de razonamiento del modelo, el enfoque garantiza un uso más regular y controlado de la capacidad existente. Esto significa que la calidad del modelo base sigue siendo decisiva. En resumen, los RLM no hacen que un modelo sea “más inteligente”.

El interés que han recibido los modelos de lenguaje recursivo muestra que los equipos ahora pueden recurrir a diseños de sistemas más inteligentes en lugar de modelos más grandes. Hasta ahora, hemos visto que cuando se trata de recuperación de documentos en sistemas, se utiliza la Generación Aumentada de Recuperación (RAG). Algunos desarrolladores se preguntan si la era RAG terminará con la introducción de RLM. Si bien RAG ofrece un método poderoso para encontrar la información correcta, puede verse limitado al comparar múltiples documentos, análisis que requieren un razonamiento de cadena larga o tareas de planificación de varios pasos. RLM, por otro lado, no sólo aporta información, sino que también intenta gestionar sistemáticamente cómo se procesará la información aportada. Esto anima a los equipos a avanzar con una estructura en la que RAG, Agent y RLM se utilizan juntos.

El interés que han despertado los modelos de lenguaje recursivo apunta a una nueva dirección en el mundo de la inteligencia artificial. Si bien la carrera en los últimos años se ha centrado en modelos con parámetros más grandes, enfoques como RLM están cambiando el enfoque hacia la arquitectura del sistema. En el próximo período, es posible que se vuelvan más comunes los sistemas híbridos en los que RAG, arquitecturas de agentes y estrategias de inferencia similares a RLM se utilizan juntos, en lugar de modelos más grandes solos.

We use cookies in order to give you the best possible experience on our website. By continuing to use this site, you agree to our use of cookies.
Accept