Aunque OpenAi, Google y Anthrope, Giants de inteligencia artificial, asistentes de escritura de código y capacidades de codificación; Los modelos aún no han alcanzado el nivel esperado en algunos temas. Departamento de I + D de Microsoft Microsoft Research por A un nuevo trabajo realizado Según los modelos de inteligencia artificial, tener dificultades en el software del software.
Detalles del estudio
Según la información compartida dentro del alcance del estudio; Los modelos de inteligencia artificial no han podido extraer muchos problemas en una comparación de desarrollo de software llamada SWE-Bench Lite. Estos modelos incluyen el soneto Claude 3.7 de Anthrope y el O3-Mini de Openi. Los resultados nos muestran que la inteligencia artificial aún no puede competir con personas en áreas como la codificación.
En el estudio, probó nueve modelos diferentes como una columna vertebral para un agente basado en una sola solicitud con acceso a una serie de herramientas de formación de errores. Python Depugger fue una de las herramientas de depuración. El agente fue asignado para resolver un conjunto seleccionado de 300 software en SWE-Bench Lite.
Soneto Claude 3.7, OpenAi O1 y O3-Mini
Según la información compartida; Los agentes rara vez han completado con éxito más de la mitad de las tareas de depuración. Incluso cuando los agentes estaban equipados con modelos más fuertes y nuevos, esto no cambió. Con 48.4 por ciento, Claude 3.7 Sonnet tuvo la tasa de éxito promedio más alta. Claude 3.7 Sonnet’i 30.2 por ciento de OpenAi’nin O1 y 22.1 por ciento de O3-Mini siguieron.
Algunos modelos se han visto obligados a usar las herramientas de error de Errorwood que se les ofrecen. Del mismo modo, es difícil entender cómo los modelos y las diferentes herramientas pueden ayudar a diferentes problemas. Sin embargo, los autores del estudio dijeron que el mayor problema es la escasez de datos. Los autores piensan que no hay suficientes datos en los datos de capacitación de los modelos existentes que representan cicatrices de errores humanos. Los autores del estudio creen que los entrenadores o la finaculación pueden hacerlos hacerlos mejores errores interactivos. Sin embargo, se observa que se requerirán datos especiales para realizar dicha capacitación de modelos.
