Stability AI, la compañía detrás de la herramienta de arte de IA Stable Diffusion, ha anunciado el lanzamiento de StableLM, un conjunto de modelos de lenguaje principal de código abierto. Stability AI dice que los modelos, que están disponibles como «alfa» en GitHub y Hugging Face, pueden generar tanto código como texto, al tiempo que demuestran cómo los modelos pequeños y eficientes de alto rendimiento pueden ser con la capacitación adecuada.
Las versiones disponibles públicamente del paquete StableLM actualmente consisten en modelos con 3 mil millones y 7 mil millones de parámetros, con modelos con 15 mil millones, 30 mil millones y 65 mil millones de parámetros indicados como «en progreso». Según lo que se compartió en la publicación del blog de la compañía, el lanzamiento de StableLM se basa en la experiencia de Stability AI con modelos de lenguaje heredados de código abierto con EleutherAI, un centro de investigación sin fines de lucro. Estos modelos de lenguaje incluyen el paquete GPT-J, GPT-NeoX y Pythia entrenado en el conjunto de datos de código abierto The Pile. Varios nuevos modelos de lenguaje de código abierto continúan basándose en estos esfuerzos, incluidos Cerebras-GPT y Dolly-2.
Si bien los modelos se entrenaron en The Pile, Stability AI afirma haber creado un conjunto de entrenamiento personalizado que aumenta el tamaño estándar de Pile en 3 veces. La empresa cree que los modelos lingüísticos formarán la columna vertebral de su economía; por lo tanto, afirma que quiere que todos tengan voz en los diseños. Modelos como StableLM demuestran un compromiso con la tecnología de IA transparente, accesible y de apoyo, según la empresa.
Stability AI no compartió información sobre si los modelos StableLM tienen las mismas limitaciones que otros en su publicación de blog. Actualmente no está claro exactamente qué tan robustos son los modelos StableLM. El equipo de Stability AI señaló en su página de GitHub que pronto se compartirá más información sobre las capacidades de los LLM, incluidas las características del modelo y la configuración de capacitación.
En resumen, es probable que surja una alternativa sólida y de código abierto a ChatGPT de OpenAI, siempre que los modelos funcionen lo suficientemente bien en las pruebas.