Cuando haces los cálculos, los humanos siguen dominando.

Lauren Williams, de Harvard, una “genio” galardonada con la beca MacArthur, se une a un esfuerzo internacional para desafiar las nociones de supremacía de la IA.

¿Se han exagerado enormemente los informes sobre la sustitución de matemáticos por parte de la IA?

La inteligencia artificial ha logrado una impresionante serie de hazañas: resolver problemas de la Olimpiada Internacional de Matemáticas, realizar estudios enciclopédicos de literatura académica e incluso encontrar soluciones a algunas preguntas de investigación de larga data. Sin embargo, estos sistemas aún no logran igualar a los mejores expertos en las fronteras conceptuales de las matemáticas de investigación.

Un profesor de Harvard y otros matemáticos de renombre mundial han puesto en marcha un ambicioso experimento para definir con mayor claridad la frontera entre la inteligencia artificial y la humana. Estos académicos han retado a las empresas de IA a resolver una serie de complejos problemas que ellos mismos han solucionado recientemente, pero que mantuvieron en secreto. El objetivo es responder a una pregunta clave: ¿Dónde ha alcanzado la IA la supremacía y dónde sigue reinando la inteligencia humana?

«Es una pregunta difícil de responder porque las capacidades de la IA mejoran constantemente», afirmó Lauren Williams , profesora de matemáticas de la cátedra Dwight Parker Robinson en Harvard, quien recientemente recibió una beca de la Fundación MacArthur. «Pero, al menos por el momento, la IA no es muy buena para dar un salto creativo y resolver problemas que se alejan mucho de los que ya se han resuelto».

Williams forma parte de un equipo de 11 matemáticos —entre ellos un ganador de la Medalla Fields y dos becarios MacArthur— que organizan First Proof. El proyecto busca crear una metodología más objetiva para evaluar la capacidad de los sistemas de IA para resolver problemas de investigación matemática.

Sin duda, los sistemas de IA han logrado grandes avances en matemáticas. En 2024, un sistema creado por Google DeepMind resolvió problemas de la Olimpiada Internacional de Matemáticas a un nivel comparable al de un medallista de plata.

Pero no todos los esfuerzos han tenido tanto éxito. Un análisis reciente demostró que los grandes modelos de lenguaje (MLL) lograron resolver una pequeña fracción de problemas matemáticos de nivel de investigación, pero eran propensos a errores lógicos, concepciones erróneas fundamentales y interpretaciones erróneas de resultados existentes. Algunos investigadores han concluido que las herramientas de IA actualmente son más útiles para ayudar con tareas rutinarias, como las revisiones bibliográficas, pero no para resolver grandes problemas de investigación de forma autónoma.

El proyecto First Proof fue iniciado por Mohammed Abouzaid , profesor de matemáticas en la Universidad de Stanford. Abouzaid afirmó que muchas de las demostraciones más publicitadas de las capacidades de la IA en matemáticas “no reflejaban realmente mi experiencia como matemático”.

Según explicó, las empresas tecnológicas tienden a centrarse en resultados medibles mediante sistemas automatizados y escalables. A menudo reformulan las preguntas de investigación para que puedan responderse con las tecnologías actuales, pero no necesariamente con los enfoques que adoptarían los matemáticos investigadores. Además, gran parte de la investigación ha sido realizada por personas con intereses particulares.

Así pues, el equipo de matemáticos —procedentes de instituciones como Harvard, Columbia, Duke, Yale, UC Berkeley y la Universidad de Texas en Austin— decidió que era hora de una evaluación independiente. En diciembre, se reunieron en Berkeley para recopilar problemas de investigación que habían resuelto recientemente pero que aún no habían publicado. Sus diez problemas abarcan un amplio espectro de las matemáticas, incluyendo teoría de números, combinatoria algebraica, teoría espectral de grafos, topología simpléctica y álgebra lineal numérica.

Las soluciones —cada una de no más de cinco páginas— han sido encriptadas y almacenadas en un repositorio seguro. Los autores presentaron públicamente los problemas el 5 de febrero y revelarán las soluciones el 13 de febrero.

Los expertos compararán las demostraciones elaboradas por matemáticos con las generadas por inteligencia artificial (los problemas pueden resolverse de más de una manera). Los organizadores planean publicar otro conjunto de problemas a finales de este año.

En pruebas preliminares con GPT 5.2 Pro y Gemini 3.0 Deepthink, los autores informaron que «los mejores sistemas de IA disponibles públicamente tienen dificultades para responder a muchas de nuestras preguntas». Abouzaid afirmó que los modelos de IA resolvieron dos de los diez problemas en las pruebas preliminares. «Ya estamos aprendiendo mucho al ver cuáles de nuestras diez preguntas puede responder», añadió.

Al experimentar con herramientas de IA, Williams descubrió que parecían útiles en apariencia, pero que resultaban poco fiables a niveles más profundos.

«Cuando le he hecho a la IA una pregunta sobre un tema que desconozco, la respuesta suele ser útil e informativa», comentó. «Pero a medida que le hago preguntas más relacionadas con mi área de especialización, empiezo a detectar errores. Si le pregunto sobre temas en los que estoy trabajando, a veces tiene alucinaciones y empieza a decirme: “Ah, la respuesta a esa pregunta está en este artículo que escribí”, pero no es un artículo que yo haya escrito. A veces inventa referencias, y la única razón por la que sé que no son reales es porque dicen que yo soy la autora, y nunca escribí tal artículo».

Williams afirmó que la IA a veces distorsionaba su consulta. En lugar de responder a su pregunta original, la desviaba hacia otra pregunta que podía responderse consultando la bibliografía existente.

“Puede ser bastante eficaz imitando acciones previas o combinando resultados conocidos para llegar a una conclusión”, explicó Williams. “Si se trata de un algoritmo, es excelente”.

Pero esas cuestiones no representan la vanguardia en este campo.

Por lo general, la investigación matemática consta de tres fases: formular una buena pregunta, desarrollar un marco para abordar el problema y resolverlo. Los dos primeros pasos están fuera del alcance de la IA, por lo que el desafío se centra en poner a prueba únicamente el último: encontrar soluciones a problemas ya definidos.

Otro coautor, Martin Hairer , profesor de matemáticas puras en la EPFL de Suiza y en el Imperial College de Londres, y ganador de la Medalla Fields de 2014, dijo que el grupo buscaba “refutar un poco la idea de que ‘las matemáticas están resueltas’ solo porque algún máster en Derecho logró resolver un montón de problemas de las Olimpiadas Matemáticas”.

«En mi opinión, la idea de que los matemáticos sean reemplazados por la IA es un completo disparate», afirmó Hairer. «Quizás esto cambie en el futuro, pero me cuesta creer que los modelos que vemos actualmente empiecen a generar de repente nuevos descubrimientos».

Lauren Williams.

Stephanie Mitchell/Fotógrafa del personal de Harvard