EL ENFOQUE DE LAS EMPRESAS DE IA PARA REUNIR DATOS SE BASA EN LA ESTRATEGIA DE “MEJOR PEDIR PERDÓN QUE PERMISO”, OPTANDO POR ACUMULAR DATOS DE CUALQUIER FUENTE, LEGAL O NO. LA UTILIZACIÓN DE DATOS SINTÉTICOS COMO SOLUCIÓN AL VOLUMEN NECESARIO GENERA POTENCIALES ERRORES QUE PUEDEN PROPAGARSE, CAMBIANDO EL ENFOQUE DE CALIDAD POR CANTIDAD.
Comprender la magnitud de los datos utilizados por las empresas de inteligencia artificial (IA) generativa es un desafío abrumador. Recientes artículos destacan las medidas extremas a las que algunas compañías están dispuestas a llegar para acumular más datos. Por ejemplo, OpenAI ha transcrito más de un millón de horas de videos de YouTube para entrenar GPT-4, una práctica que podría violar los términos de servicio de la plataforma.
El enfoque predominante entre las empresas desarrolladoras de IA es el de “mejor pedir perdón que permiso”, optando por recoger tantos datos como sea posible de cualquier fuente disponible y resolver las consecuencias legales o económicas más adelante. Esta estrategia refleja una prioridad alta en el acceso a datos, justificando casi cualquier medio para lograrlo.
Un ejemplo claro de la escalada en la recopilación de datos es el uso de crawlers por OpenAI desde 2007, que ha reunido aproximadamente 410,000 millones de tokens, en contraste con los 3,000 millones de tokens que representa toda la Wikipedia. Además, la compañía ha escaneado millones de libros y recogido datos de páginas de Reddit basadas en la recepción de votos positivos como un indicador de calidad.
En respuesta a la monumental cantidad de datos necesarios, algunas empresas están recurriendo a los datos sintéticos, generados por otros algoritmos, para entrenar sus propios sistemas. Este método presenta complicaciones, ya que los errores pueden propagarse a través de los procesos de entrenamiento e inferencia, pero también ofrece un potencial prácticamente ilimitado y muy atractivo.
Esta nueva fase en el desarrollo de IA, denominada “todo p’adentro”, se centra menos en la calidad y más en la aparente eficacia de los algoritmos resultantes. Estamos entrando en una era donde la cantidad de datos predomina sobre su calidad, marcando un cambio significativo en la gestión de la información en el campo de la IA.
Leer el artículo completo en Enrique Dans
.
.
.