En el ámbito de los chatbots como ChatGPT, Gemini, Copilot y Claude, sigue siendo un desafío determinar cuál es superior. A pesar de numerosos benchmarks intentando evaluar estos modelos de IA, la conexión entre los resultados de estos tests y la experiencia real de los usuarios no siempre es clara. Según lo que pueden sentir algunos usuarios, lo que es una respuesta adecuada para uno puede no serlo para otro, y cada interacción con estos chatbots puede variar significativamente.
En la reciente cobertura de The New York Times, se destaca cómo las empresas al introducir nuevos modelos de IA, a menudo hacen afirmaciones subjetivas y difíciles de verificar, como que tienen “capacidades mejoradas” sin clarificar los detalles. Este problema es notable en la industria, ya que no se puede afirmar con certeza si un modelo como Gemini escribe mejor código que ChatGPT o si la versión de pago de ChatGPT realmente justifica su costo en términos de calidad.
La inteligencia artificial supera a los humanos en ciertas áreas, como la clasificación de imágenes y la comprensión del inglés, pero no en todas, como la planificación o el razonamiento matemático avanzado, según el A.I. Index de la Universidad de Stanford. Sin embargo, los modelos actuales están comenzando a superar las pruebas estándar, como ImageNet y SQuAD, lo que ha llevado a la creación de benchmarks más exigentes diseñados para desafiar más efectivamente las capacidades de la IA.
Además, la “puntuación ELO”, utilizada en Chatbot Arena, se está convirtiendo en un referente más relevante porque mide la efectividad percibida por los usuarios reales en lugar de solo el rendimiento en pruebas sintéticas. Un modelo puede destacar en un benchmark de generación de texto, pero la opinión de un usuario podría ser diferente.
Por ejemplo, Claude 3 Opus de Anthropic recientemente superó a GPT-4 en algunos escenarios de benchmarks y en puntuación ELO, indicando que los usuarios prefieren actualmente a Claude 3 Opus sobre GPT-4, aunque esto puede cambiar rápidamente.
Esto refleja un problema mayor en la evaluación de la IA: la falta de una metodología clara y fiable para comparar estos modelos de manera definitiva, lo que sigue siendo un desafío significativo para la industria.
Esta noticia y su imagen son un resumen del artículo publicado en: Xataka
.
.
.