Me encargué de cinco modelos de IA de vanguardia escribiendo un informe de investigación, y los resultados me sorprendieron

La IA está en todas partes hoy, con varios modelos promocionados como extremadamente capaces y útiles. Para mí, eso significa que IA investigue sobre temas complejos, ahorrándome horas todos los días. Pero tengo acceso a varios modelos, y no puedo evitar preguntarme: ¿Cuál vale la pena su confianza?

Uso de una IA para la investigación

Una de las cosas más útiles sobre la IA para la persona promedio es la capacidad de que busque en Internet una tonelada de información en poco tiempo. Las cosas que pueden llevarle horas para investigar y descubrir pueden ubicarse y compilarse en un resumen rápido por un modelo de IA en menos de un minuto. En la superficie, puede parecer que todos esos modelos de IA diferentes son efectivamente los mismos, y solo tienen diferentes nombres y diferentes compañías que los financian.

Pero he pasado mucho tiempo trabajando con diferentes modelos de IA, entrenándolos, probándolos, mejorándolos; Tienen sus fortalezas y debilidades, y si está buscando pagar una suscripción a un modelo de IA en particular, mi experiencia con ellos podría resultarle útil. He probado una variedad de diferentes modelos avanzados, y voy a compartir mis hallazgos con todos ustedes. Para realizar esta prueba, cada modelo recibió exactamente el mismo mensaje:

«Proporcione un informe de investigación que detalla los beneficios potenciales de los Estados Unidos que se convierte completamente en fuentes de energía renovable, incluida la viabilidad, los beneficios económicos y del ecosistema, el costo de implementación y los posibles obstáculos en una conversión completa. Incluya tablas cuando sea apropiado para apoyar su informe y proporcionar fuentes para todas las declaraciones de hechos».

Este aviso se presentó a cinco modelos de vanguardia diferentes: Claude Opus 4, Gemini 2.5 Pro, Grok 3, Meta Llama 4 Maverick y Chat GPT-4.1. En cuanto a cómo están siendo calificados, miré algunas cosas:

¿El modelo solicitó más detalles antes de intentar satisfacer mi solicitud?
¿Cuántas fuentes proporcionó el modelo y cuál fue la calidad y la confiabilidad de esas fuentes?
¿Qué tan robustos fueron los asistentes visuales proporcionados por el modelo?
Sin restricciones de longitud especificadas, ¿cuánto tiempo y complejo fue el informe de investigación que proporcionó el modelo?
¿Fue precisa la información proporcionada y se detalló adecuadamente?

Ahora vale la pena señalar que hay modelos de IA especializados para diferentes tipos de tareas, y ninguno de los que estoy probando aquí hoy es el «tipo de investigación profunda». Sin embargo, creo que eso es apropiado, porque la mayoría de los usuarios promedio se subirán al modelo de IA más común que pueden encontrar y preguntar sin cazar la opción más especializada. Estos modelos de IA son algunos de los más utilizados, por lo que estos resultados son interesantes.

Claude Opus 4: Gran potencial limitado por falta de capacidad

Desafortunadamente, Claude Opus 4 tuvo un comienzo difícil de inmediato. Este es un modelo que cuenta con un mayor nivel de «pensamiento» que puede apagar y apagar. Tiene la capacidad de razonar, lo que puede permitirle responder preguntas más complejas con más profundidad. Naturalmente, encendí este modo de razonamiento para mi mensaje de investigación. El problema? El modelo seguía pensando en callejones sin salida. Se obtendría parcialmente a través del informe, luego emitiría un error en lugar del producto final que quería. Esto sucedió varias veces seguidas.

Parecía que mi solicitud era demasiado compleja para ello. Pero después del tercer intento, Claude Opus 4 finalmente logró generar el informe de investigación que había pedido. O al menos, parte de él. Se las arregló para cubrir mucho de lo que pedí con gran detalle: el panorama energético actual de los EE. UU., Una evaluación de factibilidad, costos de implementación, beneficios económicos y ecosistemas, pero llegó a una parada completa durante el análisis de costo-beneficio, aproximadamente 2/3 del camino a través del informe.

No hace falta decir que esto es realmente malo. El modelo no terminó de proporcionarme lo que pedí, que es el mínimo que esperarías de él. La peor parte es que las partes del informe que realmente recibí fueron muy buenas. No me hizo ninguna pregunta aclaratoria, pero proporcionó un resumen ejecutivo de todo el informe al principio. Proporcionó una tabla en casi todas las secciones del informe, y se volvió increíblemente detallada sobre las fuentes, a menudo proporcionando una fuente para cada número en una tabla, todo desde lugares acreditados como agencias gubernamentales y estudios académicos profesionales.

Aún así, nada de eso realmente importa si el modelo no puede terminar de darme el informe, por lo que Claude Opus 4 obtiene una calificación fallida aquí. Es una verdadera lástima, porque en general, Claude ha sido uno de mis modelos favoritos desde que cambié de GPT, pero parece ser mejor en tareas más creativas.

Gemini 2.5 Pro: Falta de profundidad para su longitud

En general, Gemini 2.5 Pro lo hizo bien. No hizo ninguna pregunta aclaratoria, pero incluía un resumen ejecutivo y una conclusión en el informe. Utilizó 12 fuentes de alta calidad, incluidos informes del Laboratorio Nacional de Energía Renovable, el Departamento de Energía de los Estados Unidos y la Agencia Internacional de Energía Renovable, aunque vale la pena señalar que ninguna de estas fuentes fue más reciente que 2022. Tenía cinco tablas, aunque algunas de ellas fueron un poco escasas en los datos y no proporcionaban mucho valor.

El informe era una longitud promedio de aproximadamente 1,300 palabras, lo que no es tan largo como me gustaría para un informe de investigación detallado, pero mejor que algunos de sus competidores. Desafortunadamente, el modelo AI rompió el informe en demasiadas piezas del tamaño de un bocado, y algunas secciones tenían simplemente una oración o dos. A veces, una sección ofrecía una declaración o estimación vaga, pero no incluye ningún número real o información procesable.

Técnicamente habló sobre todo lo que pedí, pero se sintió más como un gran resumen de un informe que un informe real. Con un poco de refinamiento de la solicitud y algunas limitaciones adicionales, pude ver a Gemini 2.5 Pro mejorando en esta prueba, pero tal como está ahora, se sintió promedio en general. Afortunadamente, es más capaz en otras áreas en las que Google lo ha empujado.

Grok 3: Fuentes abundantes y excelente información citando

En este punto de la prueba, noté que ninguno de estos modelos de IA estaba muy interesado en hacer preguntas aclaratorias sobre mi solicitud, incluido Grok 3. Si bien eso es un poco desacelerado, Grok me impresionó de otras maneras, a saber, el número de fuentes examinadas y confiables que utilizó para su investigación, así como cuán limpia las citó mientras proporcionaba hechos y estimaciones durante todo el informe. Gemini 2.5 Pro solo usó 12 fuentes para su informe. Grok 3 usó 21 y también logró sacar algunos de 2023.

Aprovechó estas fuentes extremadamente bien a lo largo del informe. Cada una de las tablas sorprendentemente robustas y detalladas había citado fuentes para sus datos, y casi todas las declaraciones de datos y datos también tenían una fuente citada, incluso si fuera por una sola oración. Esto hizo que fuera extremadamente fácil verificar la precisión de cada declaración y saber dónde buscar si quería encontrar más información sobre cualquier detalle que el modelo presente en el informe.

El informe fue bastante extenso con alrededor de 2,000 palabras también. Si bien hubo algunas secciones pequeñas en las que Grok 3 podría haber tenido más detalle, en general, proporcionó muchas cifras exactas, explicaciones detalladas y, sobre todo, las numerosas fuentes académicas y gubernamentales que se integraron en el informe más completamente que sus competidores. Parece que Grok es en realidad un modelo AI llamado.

Desafortunadamente para Meta, su modelo de Llama 4 Maverick tuvo muchos problemas con mi solicitud de un informe detallado sobre energía renovable. Para empezar, el informe en sí fue absurdamente corto con un miserable 800 palabras, y eso es con cierta redundancia que realmente no necesitaba. No solo hubo un resumen y una conclusión que ambos cubrieron los mismos detalles, sino que el modelo en sí mismo hizo un párrafo después del hecho de que me hiciera saber de qué se trataba y logró el informe.

Las tablas proporcionadas a menudo eran escasas en los datos, y algunas secciones del informe ofrecían declaraciones bastante inútiles que carecían de datos concretos, como «lograr una red 100% renovable requiere avances significativos en el almacenamiento de energía (por ejemplo, baterías, hidrovelo bombeado) y flexibilidad de la grasa». Esta fue la única oración en la sección «Integración de la red y almacenamiento de energía» del informe, y ni siquiera ofreció ningún número concreto. Tuve que entrar en la fuente yo mismo para buscar los números, lo que derrotó el punto de pedirle a la IA que hiciera esto por mí en primer lugar.

Además de todo esto, el informe tenía más puntos de bala y listas que cualquier otra cosa, y aunque utilizó fuentes acreditadas, el modelo solo incluía 8 de ellos, significativamente menos que todos sus competidores. En general, Meta Llama Maverick 4 realizó lo peor en esta prueba en varias métricas, y eso me sorprendió, ya que tardó tanto en compilar su respuesta como todos los demás modelos. Meta AI puede ser útil, pero claramente, este tipo de tarea no es su traje fuerte.

Chat GPT 4.1: Barebones e insatisfactorio

Sinceramente, me sorprendió cuán mediocre fue el chat GPT 4.1 en esta prueba. Esto si el modelo GPT insignia, y sin embargo, el informe final fue de alrededor de 800 palabras, al igual que Meta’s Maverick. Sin embargo, de alguna manera, GPT 4.1 lo hizo aún peor, proporcionándome una experiencia verdaderamente básica. Dos de sus cuatro tablas proporcionadas tenían dos filas de datos o menos, proporcionando tan poca información que bien podrían no haber estado allí.

La mayor parte del informe era solo listas de puntos de bala con declaraciones genéricas y pocos datos que las respaldaban. La sección más «detallada» en todo el informe fue una con tres puntos de bala y una friolera de 70 palabras de información. Si bien el modelo utilizó fuentes de buena reputación como el Instituto de Investigación de Economía Política, la Universidad de Princeton y la Agencia de Protección Ambiental de los Estados Unidos, solo proporcionó la información a nivel de superficie de cualquiera de esos artículos citados, lo que me exigió que vaya e haga la investigación de todos modos para aprender algo realmente útil.

Por lo menos, la información que proporcionó el modelo era precisa, pero al final del día, simplemente carecía de una profundidad significativa. Fue, con mucho, el menos satisfactorio de los modelos probados. Tal vez Chat GPT es más adecuado para otras tareas.

En cuanto a la IA ha llegado en los últimos años, obviamente todavía está muy lejos de perfecto. Me sorprendió saber que Grok 3 hizo lo mejor de todos los modelos que probé, aunque ciertamente, Claude Opus 4 puede haberlo hecho aún mejor si realmente hubiera logrado finalizar la tarea asignada. No puede usar estos modelos de IA para proyectos de investigación profunda, pero su desempeño aquí es un indicador de su calidad de salida general y la forma en que han sido capacitados, lo que afecta todas las tareas y solicitudes asignadas.

Dicho esto, esta prueba ha hecho una cosa obvia; Si está buscando una IA que pueda ayudarlo con tareas increíblemente complejas y complicadas que les requiera compilar información precisa de toda la web, es posible que desee buscar modelos de IA con modos de investigación profundos dedicados o habilidades de pensamiento complejas más avanzadas.

Comparte esto: