blog

Tecnología LLM-as-a-Judge y asistentes RAG

Métodos y herramientas

Introducción

La adopción generalizada de modelos masivos de lenguaje (en inglés Large Language Models, LLM) ha llevado al desarrollo de técnicas para poder optimizar sus capacidades en situaciones diversas. Por ejemplo, la técnica conocida con el término inglés de fine-tuning se utiliza para adaptar un modelo fundacional a una tarea o dominio concreto, entrenándolo con un conjunto más pequeño de datos especializados; el prompting guía las respuestas de un modelo fundacional sin necesidad de entrenamiento o alineación adicional; y la retrieval-augmented generation (RAG) permite obtener información de fuentes externas en tiempo real y de forma precisa, reduciendo la dependencia a los datos estáticos del cuerpo de conocimiento del modelo inicial.

Todas estas técnicas necesitan sin embargo el soporte de métodos de evaluación sólidos, no solo para acelerar el despliegue de la aplicación final sino, lo que es más importante, para garantizar resultados precisos y fiables. En este artículo nos centramos en uno de estos métodos, conocido en inglés como LLM-as-a-Judge, aplicado en asistentes virtuales basados ​​en RAG. Igualmente presentamos una herramienta desarrollada en Process Talks para facilitar la aplicación de este método de evaluación a vuestros proyectos.

Sistemas RAG: Cómo evaluarlos

Imagina los siguientes escenarios:

  • Técnicos municipales que asesoran sobre normativas, decretos y regulaciones a ciudadanos que desean obtener un permiso de obras, una licencia comercial o similar. Necesita un acceso rápido a toda la información relevante en cada caso de entre todo un cuerpo de documentación legal que se actualiza periódicamente. 
  • PyMEs centradas en productos y servicios especializados y que prestan soporte a sus clientes sobre actualizaciones, buenas prácticas, resolución de problemas, etc. Para estas empresas, atender a las solicitudes de los clientes a tiempo supone un esfuerzo notable debido a los recursos limitados con que cuentan, la dispersión documental, la constante actualización de la información y la gran variabilidad en las consultas.

Los asistentes basados ​​en RAG ofrecen una solución óptima a situaciones de este tipo porque proporcionan un acceso rápido y preciso a la información necesaria en cada caso. Sin embargo, su éxito depende de cómo se desplieguen para adaptarse a las particularidades de cada contexto (técnicas utilizadas para el tratamiento de datos y texto, indexación de documentos, etc.), pero también, y de forma muy importante, de los mecanismos de evaluación establecidos para garantizar un rendimiento máximo.

La evaluación de los asistentes basados ​​en RAG se fundamenta principalmente en 2 parámetros:

  • Precisión. Determina si el contenido de la respuesta proporcionada por el asistente es correcto.
  • Adecuación. Analiza si la respuesta está bien formulada en términos de extensión (¿demasiada verbosidad? ¿brevedad excesiva?), si el registro se adapta al tipo de usuario (¿exceso o falta de formalidad?), si suena natural en la lengua de destino, etc.  

Para garantizar que los asistentes basados ​​en RAG ofrezcan respuestas fiables y adecuadas será necesario desplegar una capa sólida de evaluación. Y aquí es donde entra en juego la tecnología LLM-as-a-Judge.

¿Qué es LLM-as-a-Judge?

LLM-as-a-Judge (LLM-J) es un procedimiento de evaluación que utiliza LLMs para evaluar la calidad de las respuestas generadas por otros modelos. Cabe preguntarse: ¿qué justifica este enfoque? ¿Hasta qué punto es fiable utilizar las capacidades de una IA para evaluar las capacidades de otra IA? Después de todo, ya contamos con mecanismos automatizados para evaluar el rendimiento de sistemas, que se han utilizado durante décadas y que se basan en el discernimiento humano en lugar de la inteligencia artificial. 

Y es que los procesos de evaluación basados ​​en conocimiento humano pueden ser automatizados en muchas situaciones. Por ejemplo, si las respuestas esperadas se pueden contrastar de forma fiable sobre un estándar de referencia – en inglés, gold standard (por ej., en el caso de preguntas sí/no, preguntas factuales, etc.) o evaluadas mediante reglas heurísticas (p. ej., cuando las respuestas dependen de determinadas condiciones: si X entonces responde A, si Y entonces responde B). En estos dos casos, es necesaria la competencia humana para generar el conocimiento (conjuntos de datos de referencia, conjuntos de reglas, etc.) que un proceso automatizado utilizará para evaluar los resultados del sistema.

Ahora bien, ¿qué hacer cuando la salida del sistema no implica una solución única? ¿O cuando se presenta como texto libre y no estructurado? ¿O cuando se puede expresar de formas diferentes pero igualmente válidas? Aquí es donde los anteriores métodos automatizados quedan cortos y por el contrario sería necesario un proceso ad hoc de validación humana que evalúe la corrección de cada respuesta. 

Pero al igual que los modelos de IA destacan por su competencia en actividades cognitivas generales (como redactar o resumir un texto), también se pueden utilizar para evaluar si la respuesta a una pregunta es correcta, incluso cuando está fraseada diferente a la del estándar de referencia. Así pues, a la hora de evaluar la precisión y adecuación de los asistentes basados ​​en RAG, el método LLM-J tiene un rendimiento muy comparable al de la evaluación humana.

La técnica LLM-J puede implementarse con variaciones concretas para adaptarse a escenarios diferentes, en base a los siguientes aspectos:

  • ¿Verdad de referencia o conjunto de criterios? La alternativa aquí es si el LLM-J debe evaluar respecto de datos de referencia tomados como “verdad de base” (en inglés, ground truth) o bien utilizando un conjunto de criterios que describen qué debe considerarse como aceptable.

    La verdad de referencia suele consistir en parejas de pregunta-respuesta. La tarea del evaluador LLM-J es analizar si las respuestas del asistente RAG son equivalentes a las de la referencia, incluso si están expresadas de forma distinta. Por el contrario, el conjunto de criterios no proporciona una respuesta clave sino una descripción de qué tipo de respuesta se espera (por ejemplo, en términos de claridad, extensión, fluidez, registro, etc.). Tanto la verdad de referencia como los criterios son establecidos por humanos, asegurando un nivel último de control.

    También existen sistemas que se basan en ambos elementos, cada uno para evaluar un aspecto diferente: la verdad de referencia se puede utilizar para evaluar la precisión de las respuestas (es decir, si proporcionan el contenido correcto), mientras que una batería de criterios puede utilizarse para calificar la adecuación de las respuestas (registro, longitud, grado de fluidez, etc.).
  • Evaluación de un único modelo o de un conjunto de modelos. El LLM-J puede usarse para evaluar un único modelo o para comparar entre unos cuantos y elegir el ganador. En ambos casos, la evaluación puede apoyarse tanto en una verdad de referencia como en un conjunto de criterios, o en ambos elementos a la vez.

Evaluadores LLM-J en asistentes basados ​​en RAG

Los evaluadores LLM-J pueden apoyar a los asistentes basados ​​en RAG en dos fases de su existencia. En un primer paso, durante el desarrollo del asistente. En este punto, el evaluador LLM-J puede basarse tanto en una verdad de referencia como en un conjunto de criterios. Del mismo modo, la evaluación se puede aplicar sobre varios modelos simultáneamente para elegir el mejor, o sólo sobre uno solo, escogido previamente, para refinar los procesos de recuperación y generación del RAG, y así ajustar el asistente de manera iterativa mejorando la calidad previamente a su despliegue final.

Los evaluadores LLM-J también pueden apoyar a los asistentes RAG en un paso posterior, una vez éstos ya están desplegados y en uso. Dada la imprevisibilidad de las preguntas de los usuarios, no es posible aquí contar con una verdad de referencia, pero se pueden evaluar las respuestas del asistente en función de un conjunto de criterios que permita discriminar las que posiblemente no se adecuan al perfil del usuario, necesitan una capa de postproceso, etc.

En el caso de asistentes híbridos (es decir, asistentes cuyo RAG llama varios LLM para una misma búsqueda), en esta misma fase se pueden utilizar criterios para determinar cuál es la mejor respuesta entre las devueltas por cada modelo.   

Herramienta LLM-J para evaluar asistentes RAG

Actualmente existen varios marcos de desarrollo que permiten configurar un proceso de evaluación LLM-J de forma rápida, como por ejemplo langchain i langfuse por citar un par. Lo que es más, algunos de estos recursos permiten visualizar los resultados de una evaluación LLM-J. Sin embargo, en estas herramientas la presentación y posibilidad de consulta de los datos no siempre es la más eficiente para el desarrollador, porque suelen depender del marco tecnológico del proveedor. Por eso, en Process Talks hemos desarrollado una herramienta para evaluar el rendimiento de asistentes basados ​​en RAG, versátil y fácil de utilizar. Está implementada sobre librerías comunes y de acceso gratuito para aprovechar la solidez de estos recursos, pero sin embargo ofrece una independencia completa respecto a plataformas de terceros.

Se puede utilizar para evaluar un único modelo de IA o un conjunto de éstos en paralelo, en base a la misma verdad de referencia o batería de criterios, para escoger el que responderá mejor a los requerimientos del asistente. La siguiente figura muestra una imagen de esta herramienta en un contexto de múltiples modelos.

Visión general de nuestra herramienta de evaluación LLM-J. Permite evaluar modelos en paralelo. La tabla inferior muestra el veredicto del juez LLM-J para cada modelo empleado (columnas) y pruebas realizadas (identificadas como Q0-Q6 en las filas).

Las celdas de la matriz de la figura anterior presentan el resultado de la evaluación LLM-J para cada modelo de IA utilizado por el RAG (por ejemplo, LLAMA 3.1-8B) sobre una prueba concreta (por ejemplo, Q4).  Haciendo clic en una celda, se obtienen los detalles de la prueba en cuestión, tal y como se muestra en la siguiente figura. En este caso, el evaluador LLM-J concluye que LLAMA 3.1-8B devuelve la respuesta correcta a la pregunta Q4.

Ejemplo de información proporcionada por cada prueba de evaluación (para un sistema RAG en catalán). La parte inferior presenta, a la izquierda, la respuesta de referencia, y a la derecha, la respuesta devuelta por el sistema RAG. La parte superior detalla la configuración de la prueba: modelo utilizado por el asistente RAG (LLAMA 3.1-8B), la pregunta de la prueba, el veredicto del LLM-J y el comentario del LLM-J – es decir, el razonamiento que le ha llevado a este veredicto.

El diseño es el mismo para las respuestas (parcialmente) erróneas, en este caso naturalmente con un veredicto distinto. La siguiente figura lo ilustra:

Detalles de la prueba de evaluación en un sistema RAG basado ahora en Deepseek-r1-llama-8B. El LLM-J concluye que Deepseek-r1-llama-8B no devuelve la respuesta correcta en esta prueba. También explica por qué considera que la respuesta es incorrecta.

Además, el usuario puede inspeccionar el prompt empleado por el RAG en la prueba en cuestión. De esta forma, a la hora de evaluar el rendimiento de cada LLM se dispone de su configuración completa.

Prompt RAG utilizado para configurar un modelo LLM.

¿Te interesa esta tecnología?

Como se ha visto, la técnica LLM-J es particularmente eficaz para evaluar resultados textuales y no estructurados en los que otros métodos de evaluación automatizados quedan cortos. La integración de esta técnica en un marco de evaluación para sistemas basados ​​en RAG acelera su desarrollo, permitiendo un ajuste iterativo antes de su despliegue y asegurando un nivel alto de rendimiento, precisión y fiabilidad una vez ya en uso en un contexto real.

En Process Talks hemos desarrollado nuestra propia herramienta para integrar la capacidad de la evaluación LLM-J en cualquier proyecto basado en RAG, garantizando una calidad máxima en nuestras soluciones de IA.

Si te interesa, puedes ponerte en contacto con nosotros en hola@processtalks.com.

Facebook
Twitter
LinkedIn