Hace dos años, Yuri Burda y Harri Edwards, investigadores de la empresa OpenAI, con sede en San Francisco, intentaban averiguar qué se necesitaba para que un modelo de lenguaje realizara operaciones aritméticas básicas. Querían saber cuántos ejemplos de suma de dos números necesitaba ver el modelo antes de ser capaz de sumar dos números cualesquiera que se le dieran. Al principio, las cosas no fueron demasiado bien: los modelos memorizaban las sumas que veían, pero no eran capaces de resolver otras nuevas. Por accidente, Burda y Edwards dejaron que algunos de sus experimentos duraran mucho más de lo previsto, días en lugar de horas. A los modelos se les mostraban las sumas de ejemplo una y otra vez, mucho más allá del momento en que los investigadores habrían dado por terminado el experimento. Pero cuando por fin volvieron, se sorprendieron al ver que los experimentos habían funcionado. Habían entrenado un modelo lingüístico para sumar dos números, pero les había llevado mucho más tiempo de lo que pensaban. Curiosos por saber qué ocurría, Burda y Edwards se asociaron con otros colegas para estudiar el fenómeno. Descubrieron que, en ciertos casos, los modelos podían aparentemente no aprender una tarea y, de repente, conseguirlo, como si se hubiera encendido una bombilla. No se suponía que el aprendizaje profundo funcionara así. Llamaron a este comportamiento grokking [término de la jerga de los programadores que significa comprender (N. de la T)]. “Es realmente interesante”, dice Hattie Zhou, investigadora de IA en la Universidad de Montreal y Apple Machine Learning Research, que no participó en el trabajo. “¿Podemos estar seguros alguna vez de que los modelos han dejado de aprender? Quizá es que no los hemos entrenado el tiempo suficiente”. Este extraño comportamiento ha excitado la imaginación de la comunidad investigadora en general. “Mucha gente tiene opiniones”, dice Lauro Langosco, de la Universidad de Cambridge (Reino Unido). “Pero no creo que haya consenso sobre lo que ocurre exactamente”. Este es el primer episodio temático del documental sobre como la Inteligencia Artificial y Big Data que hice junto a la empresa Unísono. Vivimos una revolución tecnológica y los datos mandan ¿Qué papel jugamos nosotros? ¿Qué mundo nos espera? En este primer episodio, de cuatro te descubriré cómo aprende la inteligencia artificial; el sesgo de los datos; quién pone los límites a la IA o cómo esta tecnología se ha convertido en la nueva revolución. Para lograrlo he entrevistado a unos profesionales de primer orden: David Carmona – general manager, AI & Washington Microsoft Sergio Blas – analytics & artificial intelligence IBM Jorge Velázquez – digital transformation manager Sanitas Javier Lázaro – digital hub director Ferrovial Francisco Pou – chief executive officer Mediacrest Concha Monje – researcher in robotics and systems control Roboticslab Fabiola García – neuropsychologist Universidad Complutense de Madrid Alberto Calero – advisor, Menlo Park California Facebook Connectivity