Modelos destacados de código abierto para turco

Si bien el ecosistema productivo de inteligencia artificial en Turquía está creciendo rápidamente, los modelos de código abierto también atraen la atención en términos de rendimiento y accesibilidad. Esta lista; Reúne modelos centrados en turco que han sido ajustados para diferentes necesidades, como razonamiento, generación de texto y búsqueda/incrustación. Estos modelos, desarrollados con contribuciones institucionales y comunitarias, apuntan a lograr resultados más consistentes y un mejor seguimiento de la instrucción en turco.

Basado en ytu-ce-cosmos/Turkish-Gemma-9b-v0.1, Turkish-Gemma-9b-T1 se ha adaptado especialmente para el razonamiento de varios pasos o, en otras palabras, el pensamiento en turco. Diseñado para funcionar mejor en problemas matemáticos, razonamiento lógico, inferencia paso a paso y tareas de planificación, el modelo produce respuestas claras y concisas siguiendo instrucciones.

Turkish-Gemma-9b-T1 ofrece una inferencia intermedia más sólida cuando intervienen múltiples condiciones en el razonamiento de varios pasos. En términos de matemáticas y lógica, se afirma que se mejora la precisión en aritmética, probabilidad, secuencias, razonamiento racional y acertijos lógicos. El modelo de razonamiento que mejor se adapta a las instrucciones alucina menos, se centra en respuestas fundamentadas e indica incertidumbre cuando es necesario.

Turkish-e5-Large aparece como una versión mejorada del modelo intfloat/multilingual-e5-large-instruct con varios conjuntos de datos turcos. Turkish-e5-Large, que responde fácilmente a consultas de búsqueda específicamente en turco, fue desarrollado por el Grupo de Investigación en Inteligencia Artificial Cosmos de la Universidad Técnica de Yıldız. El modelo se descargó más de 1.700 veces en Hugging Face durante el último mes.

Turkish-Llama-8b-v0.1 es una versión completamente modificada del modelo LLaMA-3 8B con un conjunto de datos turco de 30 GB.
Diseñado para tareas de generación de texto, el modelo destaca por su capacidad para continuar un fragmento de texto determinado de manera coherente y contextualmente relevante. Por otro lado, se afirma que el modelo puede presentar sesgos debido a la diversidad de datos de entrenamiento, que incluyen sitios web, libros y otras fuentes de texto.

Con bert-base-turkish-cased, el equipo de la Biblioteca Digital MDZ de la Biblioteca Estatal de Baviera ha publicado un modelo de carcasa para turco como código abierto. Por cierto, también vale la pena mencionar BERTurk, un modelo BERT en carcasa orientado a la comunidad para turco. Esta comunidad turca de PNL proporcionó algunos conjuntos de datos utilizados para la capacitación previa y la evaluación. El nombre del modelo, BERTurk, también lo determinó esta comunidad. La versión actual del modelo estadístico se entrenó en el corpus OSCAR turco filtrado y segmentado por oraciones, el último volcado de Wikipedia, varios corpus OPUS y un corpus personalizado proporcionado por Kemal Oflazer.

electra-base-turkish-cased-discriminator, un modelo base de ELECTRA para turco, ha sido lanzado como código abierto por el equipo de la Biblioteca Digital MDZ de la Biblioteca Estatal de Baviera. El modelo ELECTRA turco aparece como un modelo ELECTRA básico para turco, entrenado con los mismos datos que BERTurk. Se afirma que ELECTRA es un nuevo método para el aprendizaje autosupervisado de representaciones lingüísticas. Se puede utilizar para entrenar previamente redes de transformadores utilizando relativamente poca potencia informática. Los modelos ELECTRA están entrenados para distinguir tokens de entrada «reales» de tokens de entrada «falsos» producidos por otra red neuronal, similar al discriminador de GAN. La versión actual del modelo se entrenó en una versión filtrada y segmentada en oraciones del corpus OSCAR en turco, el último volcado de Wikipedia, varios corpus OPUS y un corpus personalizado proporcionado por Kemal Oflazer.

Comparte esto: