GPT-4 podría conseguir plaza en Stanford. Su capacidad de razonamiento ha mejorado lo suficiente como para superar sin mayor dificultad la mayoría de tests y exámenes. Y con nota. Si GPT 3.5, la versión en la que todavía se basa ChatGPT, falla en las pruebas de lenguaje y matemáticas más complejas, con GPT-4 tenemos un salto considerable.
Entre el 10% de los mejores estudiantes. Si GPT-4 fuera un estudiante y lo colocáramos junto al resto para pasar algunos de los exámenes tradicionales, conseguiría estar entre el 10% de los que obtienen mejor nota. Para hacernos una idea del cambio, GPT-3.5 estaría entre el 10% de los que tienen peor nota.
Estos son los resultados publicados por OpenAI en su investigación sobre GPT-4, donde han probado la nueva inteligencia artificial en exámenes diseñados originalmente para humanos.
Y sin entrenamiento específico. OpenAI explica que GPT-4 ha conseguido estos resultados sin entrenarse específicamente para estos exámenes. Una minoría de ellos sí estaba incluida en los modelos de entrenamiento, pero de hecho en esos casos se ejecutó una variante de la IA sin esos problemas. Y el resultado elegido es la puntuación más baja.
GPT-4 logra pasar todo tipo de exámenes, desde aquellos con varias opciones a los de respuesta libre.
De mayor quiero ser abogado. O biólogo. GPT-4 consigue un percentil del 90% en el Uniform Bar Exam, el test más popular en Estados Unidos para convertirse en abogado. También consigue un 88% en el LSAT, el test para acceder a la Columbia Law School.
No solo en test de leyes consigue buenos resultados. En GRE Quantitative, que mide la capacidad de razonar y entender conceptos matemáticos, está por encima del 80% de estudiantes.
Si nos fijamos en biología, GPT-4 habría quedado por encima del 99% de participantes en las olimpiadas USABO.
Habría que ir repensando la forma de evaluar. Que la IA va a ir mejorando sus resultados con el tiempo es inevitable. La duda no es tanto hasta qué punto GPT-4 puede superar los exámenes, sino si la forma de evaluar es la correcta. Afortunadamente, desde las instituciones educativas llevan ya varios años planteándose estas cuestiones.
GPT-4 todavía tiene importantes limitaciones. A pesar de conseguir resultados impresionantes, GPT-4 todavía tiene limitaciones. Hay algunos tests como Leetcode donde todavía consigue muy mala nota en las pruebas de programación avanzadas. Tampoco supera los de creatividad abstracta.
OpenAI reconoce que su IA no es del todo fiable y en algunos contextos “alucina” y comete errores de razonamiento. Un margen de mejora en el que seguirán trabajando.
Ser buen estudiante implica mucho más. GPT-4 promete un “nivel humano” en tareas académicas y profesionales. Sus excelentes resultados en todo tipo de exámenes demuestran que sus capacidades son enormes. Si bien, estos resultados no implican necesariamente que GPT-4 sea un buen estudiante.
Gary Marcus, profesor de psicología en la Universidad de Nueva York y crítico con la inteligencia artificial, recuerda que los benchmarks no implican una inteligencia robusta: “Obtener una buena puntuación en un montón de exámenes, de ninguna manera significa que GPT-4 realmente pueda funcionar como un estudiante de Stanford”.
Como muchos universitarios saben de primera mano, pasar las pruebas de acceso es una cosa; asumir los conocimientos es otra muy distinta. El sistema educativo haría bien en observar de cerca lo mucho que está avanzando la IA en resolver las pruebas tradicionales.
Imagen | Nguyen Dang Hoang Nhu
En Xataka | Hacia el fin de los deberes: cómo ChatGPT se ha insertado en el centro del gran debate sobre la educación
– La noticia GPT-4 acaba de volver obsoletos los exámenes tradicionales (y eso incluye los de nivel universitario) fue publicada originalmente en Xataka por Enrique Pérez .