¿Por qué los modelos de lenguaje generan alucinaciones en IA?
Las alucinaciones en inteligencia artificial son respuestas plausibles pero incorrectas que los modelos de lenguaje generan con confianza, incluso ante preguntas sencillas y directas. Este problema persiste debido a que los métodos actuales de entrenamiento y evaluación premian el hecho de adivinar sobre la honestidad y la manifestación de incertidumbre. Así, los modelos tienden a “adivinar” una respuesta antes que admitir que no saben la respuesta correcta, ya que los sistemas actuales incentivan el obtener una respuesta aunque sea errónea.
Enseñando para el examen
Los métodos de evaluación suelen centrar la puntuación únicamente en la exactitud, castigando menos el error que el abstenerse o admitir incertidumbre. Por eso, los modelos prefieren adivinar, ya que decir “no lo sé” se traduce automáticamente en una peor puntuación, alimentando así mayor cantidad de errores y alucinaciones en sus respuestas.
Origen de las alucinaciones
Las alucinaciones surgen del propio proceso de entrenamiento: los modelos se entrenan para predecir la siguiente palabra dada una secuencia, sin distinguir entre hechos verificables y hechos aleatorios o poco frecuentes, complicando así la distinción entre información verdadera y falsa.
Una oportunidad empresarial
Para las empresas, este enfoque puede inspirar soluciones robustas: implementar métricas de evaluación que premien la transparencia y la incertidumbre puede mejorar significativamente la fiabilidad de los asistentes virtuales y sistemas que utilizan IA, ofreciendo respuestas más seguras y alineadas con la realidad.
Fuente: OpenAI