La creciente utilización de herramientas de inteligencia artificial para resolver dudas relacionadas con la salud volvió a quedar bajo análisis tras la publicación de una investigación internacional que detectó serias falencias en la calidad de las respuestas ofrecidas por los principales chatbots del mercado. Según el estudio, cerca del 50% de las respuestas brindadas por estos sistemas fueron consideradas “algo problemáticas” o “altamente problemáticas”, lo que plantea interrogantes sobre su uso como fuente de orientación médica.

La investigación fue liderada por especialistas del Instituto Lundquist para la Innovación Biomédica, en Estados Unidos, y analizó el desempeño de cinco de los modelos de inteligencia artificial más populares de la actualidad: ChatGPT, Gemini, Meta AI, DeepSeek y Grok.

La mitad de las respuestas presentó problemas de precisión

Los investigadores diseñaron una serie de pruebas para evaluar la confiabilidad de los sistemas frente a consultas vinculadas con evidencia científica. Los resultados mostraron que uno de cada dos contenidos generados por los chatbots contenía información inexacta, ambigua o potencialmente riesgosa para quienes buscan orientación médica sin supervisión profesional.

Además, el estudio reveló que el 20% de las respuestas evaluadas fueron catalogadas como altamente problemáticas debido a que podían inducir a los usuarios a seguir tratamientos ineficaces, adoptar prácticas contraindicadas o tomar decisiones perjudiciales para su salud.

Cómo se realizó la investigación

Para medir el rendimiento de los modelos, el equipo científico elaboró 250 preguntas distribuidas en cinco áreas especialmente sensibles para la salud pública:

Cáncer.
Vacunas.
Células madre.
Nutrición.
Rendimiento deportivo.

Las consultas fueron formuladas de manera similar a las búsquedas que realizan habitualmente los usuarios en internet. Algunas preguntas también fueron diseñadas para poner a prueba la capacidad de los sistemas frente a mitos populares, teorías pseudocientíficas o recomendaciones médicas incorrectas que circulan en redes sociales y foros digitales.

El objetivo fue determinar si los modelos podían distinguir entre información respaldada por evidencia científica y afirmaciones sin sustento médico.

El riesgo de la falsa certeza

Uno de los hallazgos más preocupantes fue la forma en que los chatbots presentan la información. Según los investigadores, las respuestas suelen redactarse con un tono de seguridad y autoridad que puede transmitir una sensación equivocada de exactitud.

Desde la agencia científica Sinc señalaron que estos sistemas rara vez incorporan advertencias claras sobre las limitaciones de sus conocimientos o sobre la necesidad de consultar a profesionales de la salud.

Los expertos explican que esta situación responde a la propia arquitectura de los modelos de lenguaje, diseñados para predecir secuencias de palabras a partir de enormes volúmenes de datos obtenidos de múltiples fuentes, entre ellas artículos académicos, sitios web, blogs y foros de discusión.

“No pueden aplicar evidencia ni ponderar qué fuentes son precisas y cuáles no. Por eso ese falso equilibrio es tan común”, explicó Nicholas Tiller, autor principal de la investigación.

Grok registró los peores resultados

El estudio también estableció diferencias significativas entre los modelos analizados.

Según los investigadores, Grok, desarrollado por la empresa xAI, obtuvo el desempeño más preocupante. El 58% de sus respuestas fue clasificado como altamente problemático, convirtiéndolo en el chatbot con peor rendimiento dentro de la evaluación.

En contraste, Gemini registró la menor cantidad de errores críticos y encabezó el ranking de desempeño entre las plataformas examinadas.

Sin embargo, los especialistas aclararon que ninguno de los sistemas logró ofrecer resultados plenamente confiables en todas las categorías evaluadas.

Un lenguaje complejo que limita la comprensión

Otro de los aspectos observados fue el nivel de complejidad de las respuestas generadas por inteligencia artificial.

De acuerdo con el índice de legibilidad de Flesch utilizado en la investigación, el lenguaje empleado por los chatbots equivale al nivel de comprensión de una persona con formación universitaria.

Para los autores, esta característica representa un desafío adicional para la salud pública, ya que gran parte de la población podría tener dificultades para interpretar correctamente la información médica proporcionada por estas herramientas.

El fenómeno de la falsa credibilidad

Los investigadores también alertaron sobre un efecto psicológico que podría aumentar los riesgos asociados al uso de inteligencia artificial en temas sanitarios.

Según el estudio, las respuestas extensas, detalladas y técnicamente elaboradas generan una mayor sensación de confianza en los usuarios, incluso cuando contienen errores o afirmaciones sin respaldo científico.

Este fenómeno, explican los expertos, contribuye a construir una percepción de autoridad que no siempre se corresponde con la calidad real de la información ofrecida.

“Promueve una falsa credibilidad”, advirtió Tiller al analizar los resultados obtenidos.

Alucinaciones y referencias científicas inventadas

La investigación identificó además graves problemas relacionados con las fuentes de información citadas por los chatbots.

La calidad de las referencias bibliográficas recibió una puntuación media de apenas 40% en términos de integridad y exactitud. Ninguno de los modelos logró proporcionar un listado completamente real y verificable de estudios científicos.

Los investigadores observaron numerosos casos de “alucinaciones”, un fenómeno conocido en la inteligencia artificial que ocurre cuando los sistemas generan datos falsos con apariencia de veracidad.

Entre los errores detectados aparecieron títulos de investigaciones inexistentes, autores inventados y referencias bibliográficas que no podían ser verificadas en bases científicas reconocidas.

Crece el debate sobre la regulación de la inteligencia artificial en salud

Frente a estos resultados, los autores del estudio remarcaron la necesidad de avanzar en estrategias de educación digital que permitan a los usuarios comprender las limitaciones de estas tecnologías.

Asimismo, reclamaron una mayor capacitación de profesionales de la salud y el desarrollo de marcos regulatorios que supervisen el uso de inteligencia artificial en contextos donde la información incorrecta puede tener consecuencias directas sobre el bienestar de las personas.

“A medida que el uso de estos chatbots se expande, nuestros datos resaltan la necesidad de una educación pública, formación profesional y una supervisión regulatoria estricta”, concluyó el equipo investigador.

Compras al exterior por courier alcanzan cifras récord y ya superan los US$500 millones https://t.co/p81p5plNpX

— Radio Up (@radioupar) June 21, 2026