Tecnología

Los modelos lingüísticos de IA como ChatGPT o DeepSeek no distinguen de manera confiable entre creencias y hechos | TECNOLOGÍA – El boletin Peruano

Modelos de lenguaje grande (LLM) como ChatGPT cualquiera búsqueda profunda Es posible que no reconozcan de manera confiable las creencias incorrectas de los usuarios, según un estudio publicado hoy por Nature Machine Intelligence.

MIRAR: Ser grosero con la inteligencia artificial da mejores resultados, indica estudio

Los LLM son una herramienta cada vez más popular en campos de alto riesgo como la medicina, el derecho y la ciencia, donde la capacidad de distinguir entre creencias personales y conocimiento fáctico es crucial.

Boletín Media

La investigación, dirigida por la Universidad de Stanford, analizó cómo 24 LLM, incluidos DeepSeek y GPT-4o, Respondieron a hechos y creencias personales en 13.000 preguntas.

Los resultados del estudio resaltan la necesidad de utilizar con cautela los resultados del LLM en decisiones de alto riesgo

Por ejemplo, para los médicos de salud mental, reconocer las creencias erróneas de un paciente suele ser importante para el diagnóstico y el tratamiento. Sin esta habilidad, “Los LLM pueden apoyar decisiones erróneas y contribuir a la difusión de información falsa”escriben los autores.

Los investigadores pidieron a las IA que verificaran datos fácticos verdaderos o falsos. Los LLM más nuevos lograron una precisión promedio del 91,1% o 91,5%, respectivamente, mientras que los modelos más antiguos lograron una precisión promedio del 84,8% o 71,5%, respectivamente.

Cuando se le pidió que respondiera a una creencia en primera persona (creo…), Los autores observaron que los LLM tenían menos probabilidades de reconocer una creencia falsa en comparación con una verdadera.

Así, los modelos más recientes (lanzados después del GPT-4o en mayo de 2024, incluido este) tenían, en promedio, un 34,3% menos de probabilidades de reconocer una creencia falsa en primera persona en comparación con una creencia verdadera en primera persona.

Los modelos más antiguos tenían, en promedio, un 38,6% menos de probabilidades de reconocer creencias falsas en primera persona en comparación con las creencias verdaderas en primera persona.

Los autores, citados por la revista, señalan que los LLM recurrieron a corregir los datos del usuario en lugar de reconocer su creencia.

Al reconocer las creencias de los demás (María cree que…), Los LLM más recientes experimentaron una reducción del 1,6 % al 4,6 % en la precisión.mientras que los más antiguos experimentaron un descenso del 15,5%.

Los autores concluyen que los LLM deben poder distinguir con éxito los matices de los hechos y creencias y si son verdaderos o falsos, para responder eficazmente a las consultas de los usuarios y evitar la difusión de información errónea.