Este modelo de IA puede intuir cómo funciona el mundo físico

la versión original de esta historia apareció en Revista Quanta.

Aquí hay una prueba para bebés: muéstreles un vaso de agua sobre un escritorio. Escóndelo detrás de una tabla de madera. Ahora mueve el tablero hacia el cristal. Si el tablero sigue pasando el cristal, como si no estuviera allí, ¿se sorprenden? Muchos niños de 6 meses lo son, y al año, casi todos los niños tienen una noción intuitiva de la permanencia de un objeto, aprendida a través de la observación. Ahora algunos modelos de inteligencia artificial también lo hacen.

Los investigadores han desarrollado un sistema de inteligencia artificial que aprende sobre el mundo a través de videos y demuestra una noción de «sorpresa» cuando se le presenta información que va en contra del conocimiento que ha obtenido.

El modelo, creado por Meta y llamado Video Joint Embedding Predictive Architecture (V-JEPA), no hace ninguna suposición sobre la física del mundo contenido en los vídeos. No obstante, puede empezar a dar sentido a cómo funciona el mundo.

“Sus afirmaciones son, a priori, muy plausibles y los resultados son súper interesantes”, afirma Micha Heilbron, científica cognitiva de la Universidad de Ámsterdam que estudia cómo los cerebros y los sistemas artificiales dan sentido al mundo.

Abstracciones superiores

Como saben los ingenieros que construyen vehículos autónomos, puede ser difícil lograr que un sistema de inteligencia artificial dé sentido de manera confiable a lo que ve. La mayoría de los sistemas diseñados para «comprender» videos con el fin de clasificar su contenido («una persona jugando al tenis», por ejemplo) o identificar los contornos de un objeto (por ejemplo, un automóvil más adelante) funcionan en lo que se llama «espacio de píxeles». Básicamente, el modelo trata cada píxel de un vídeo con la misma importancia.

Pero estos modelos de espacio de píxeles tienen limitaciones. Imagínese intentar darle sentido a una calle suburbana. Si la escena tiene coches, semáforos y árboles, el modelo podría centrarse demasiado en detalles irrelevantes como el movimiento de las hojas. Es posible que no vea el color del semáforo o las posiciones de los automóviles cercanos. “Cuando vas a imágenes o videos, no quieres trabajar en [pixel] espacio porque hay demasiados detalles que no quieres modelar”, dijo Randall Balestriero, científico informático de la Universidad de Brown.

La imagen puede contener Yann LeCun Rostro Cabeza feliz Sonrisa Fotografía Retrato Hoyuelos Adulto y accesorios

Abstracciones superiores

Comparte esto: