La concordancia entre el sistema GRADE automatizado URSE y los evaluadores humanos respecto a la calidad de la evidencia fue del 63,2% con un coeficiente kappa de Cohen de 0,44. Las métricas de los dominios GRADE evaluados incluyeron precisión y las puntuaciones F1, que fueron 0,97 y 0,94 para imprecisión (número de participantes), 0,73 y 0,7 para riesgo de sesgo, 0,9 y 0,9 para los valores I² (heterogeneidad) y 0,98 y 0,99 para calidad de metodología (AMSTAR), respectivamente.