Hacia la automatización de la clasificación GRADE: una evaluación de prueba de concepto de una herramienta basada en inteligencia artificial para la calificación semiautomatizada de la calidad de la evidencia en revisiones sistemáticas
Oliveira dos Santos A, Belo VS, Mota Machado T, et al. Toward automating GRADE classification: a proof-of-concept evaluation of an artificial intelligence-based tool for semiautomated evidence quality rating in systematic reviews. BMJ Evidence-Based Medicine Published Online First: 07 April 2025. doi: 10.1136/bmjebm-2024-113123
La evaluación de la calidad de la evidencia en revisiones sistemáticas (RS) es esencial para la toma de decisiones asertiva. Aunque el sistema GRADE (Grading of Recommendations Assessment, Development and Evaluation) ofrece un enfoque consolidado para calificar el nivel de evidencia, su aplicación es compleja y requiere mucho tiempo. La inteligencia artificial (IA) puede utilizarse para superar estas barreras.
Lo que ya se sabe sobre este tema
Los estudios centrados en el uso de la inteligencia artificial (IA) en la evaluación de evidencia científica son escasos.
El sistema de clasificación GRADE es un enfoque consolidado para evaluar la calidad de la evidencia en revisiones sistemáticas (RS).
Lo que este estudio añade
Se ha desarrollado una herramienta basada en IA, denominada sistema GRADE automatizado URSE, para la clasificación de la calidad de la evidencia en RS con metaanálisis compilados de ensayos clínicos aleatorizados.
La prueba de concepto arrojó resultados moderados, indicando que aunque el sistema GRADE automatizado URSE es prometedor, todavía hay varios aspectos, incluidos enfoques metodológicos, que requieren mayor refinamiento y optimización.
Cómo este estudio podría afectar la investigación, práctica o política
Se pueden diseñar nuevos enfoques para evaluar los niveles de evidencia incorporando técnicas de IA en la evaluación de aspectos más objetivos del proceso.
Diseño y objetivo
Estudio experimental analítico que busca desarrollar y evaluar una herramienta de prueba de concepto basada en IA (URSE) para la semiautomatización de una adaptación del sistema de clasificación GRADE, determinando niveles de evidencia en RS con metaanálisis compilados de ensayos clínicos aleatorizados.
Métodos
El sistema GRADE automatizado URSE se basó en un algoritmo creado para mejorar la objetividad de la clasificación GRADE. Fue desarrollado utilizando el lenguaje Python y la biblioteca React para crear interfaces amigables. La evaluación del sistema se realizó analizando 115 RS de la Biblioteca Cochrane y comparando los niveles de evidencia predichos con los generados por evaluadores humanos.
En el presente estudio, integran el sistema URSE con RobotReviewer mediante el uso de algoritmos de procesamiento del lenguaje natural (PLN) para realizar una clasificación rápida y creíble del riesgo de sesgo en las RS.
El código de fuente abierta URSE está disponible en GitHub (http://www.github.com/alisson-mfc/urse).
El sistema GRADE automatizado URSE se accede a través de una interfaz web en la que el usuario carga los SR como archivos PDF y, posteriormente, los resultados (O) y las comparaciones (I+C) de interés para su clasificación por GRADE. Para cada combinación I-C-O, el usuario sube el ECA original correspondiente. A continuación, se muestra una evidencia provisional que puede cambiarse si el usuario desea modificar algunos elementos.
Diagrama de flujo que ilustra el proceso de desarrollo y las actividades del usuario al interactuar con el sistema GRADE automatizado por URSE. AMSTAR, A Measurement Tool to Assess Systematic Reviews; C, comparison; GRADE, Grading of Recommendations Assessment, Development and Evaluation; I, intervention; O, outcome; RCTs, randomised clinical trials.
Resultados clave
El rendimiento del sistema GRADE automatizado URSE fue medio, con una precisión del 60 %, y su concordancia con los evaluadores humanos fue moderada.
La concordancia entre el sistema GRADE automatizado URSE y los evaluadores humanos respecto a la calidad de la evidencia fue del 63,2% con un coeficiente kappa de Cohen de 0,44. Las métricas de los dominios GRADE evaluados incluyeron precisión y las puntuaciones F1, que fueron 0,97 y 0,94 para imprecisión (número de participantes), 0,73 y 0,7 para riesgo de sesgo, 0,9 y 0,9 para los valores I² (heterogeneidad) y 0,98 y 0,99 para calidad de metodología (AMSTAR), respectivamente.
Las discrepancias entre los evaluadores humanos con respecto a las clasificaciones GRADE también se producen en las evaluaciones del riesgo de sesgo de los ECA. Estos resultados sugieren que el rendimiento del sistema automatizado URSE (sensibilidad 0,63, especificidad 0,83, precisión 0,78 y CCM 0,47) es comparable al de los evaluadores humanos.
Con altos niveles de evidencia, la precisión y la sensibilidad fueron 50% y 29,41%, respectivamente, mientras que con niveles bajos de evidencia, precisión y sensibilidad fueron del 66,18% y 74,59%, respectivamente.
El tiempo medio para completar una clasificación GRADE utilizando el sistema automatizado URSE fue de 2,65 minutos (DS 1,55; CI 95%, 2,37 a 2,94) y la mediana de 2,25 minutos. Un solo evaluador humano tardó una media de 8,8 minutos por estudio, y dos evaluadores necesitaron 20,7 minutos para alcanzar un consenso. Los investigadores que utilizaron una lista de comprobación para la coherencia GRADE observaron tiempos de evaluación de una media de 30 min, que se extendían hasta 90 min en función de la experiencia del revisor. Está claro que la aplicación del sistema automatizado URSE reduciría el tiempo de evaluación.
Conclusión
El rendimiento del sistema GRADE automatizado URSE es insatisfactorio en comparación con los evaluadores humanos. Este resultado indica que el objetivo de utilizar la IA para GRADE no se ha alcanzado.
Las limitaciones del sistema GRADE automatizado URSE reforzaron la tesis de que las herramientas potenciadas por IA deben utilizarse como una ayuda para el trabajo humano y no como un sustituto del mismo. En este contexto, el sistema GRADE automatizado URSE puede utilizarse como segundo o tercer revisor, lo que mejora la objetividad de las dimensiones GRADE, reduce el tiempo de trabajo y resuelve discrepancias.
Los resultados demuestran el uso potencial de la IA en la evaluación de la calidad de la evidencia. Sin embargo, considerando el énfasis del enfoque GRADE en la subjetividad y la comprensión del contexto de producción de evidencia, la automatización completa del proceso de clasificación no es oportuna. No obstante, la combinación del sistema GRADE automatizado URSE con la evaluación humana o la integración de esta herramienta en otras plataformas representa direcciones interesantes para el futuro.

by Concepcion Campos