Tecnología LLM-as-a-Judge y asistentes RAG

blog

Tecnología LLM-as-a-Judge y asistentes RAG

febrero 7, 2025
8 minutos de lectura

Métodos y herramientas

Introducción

La adopción generalizada de modelos masivos de lenguaje (en inglés Large Language Models, LLM) ha llevado al desarrollo de técnicas para poder optimizar sus capacidades en situaciones diversas. Por ejemplo, la técnica conocida con el término inglés de fine-tuning se utiliza para adaptar un modelo fundacional a una tarea o dominio concreto, entrenándolo con un conjunto más pequeño de datos especializados; el prompting guía las respuestas de un modelo fundacional sin necesidad de entrenamiento o alineación adicional; y la retrieval-augmented generation (RAG) permite obtener información de fuentes externas en tiempo real y de forma precisa, reduciendo la dependencia a los datos estáticos del cuerpo de conocimiento del modelo inicial.

Todas estas técnicas necesitan sin embargo el soporte de métodos de evaluación sólidos, no solo para acelerar el despliegue de la aplicación final sino, lo que es más importante, para garantizar resultados precisos y fiables. En este artículo nos centramos en uno de estos métodos, conocido en inglés como LLM-as-a-Judge, aplicado en asistentes virtuales basados en RAG. Igualmente presentamos una herramienta desarrollada en Process Talks para facilitar la aplicación de este método de evaluación a vuestros proyectos.

Sistemas RAG: Cómo evaluarlos

Imagina los siguientes escenarios:

Técnicos municipales que asesoran sobre normativas, decretos y regulaciones a ciudadanos que desean obtener un permiso de obras, una licencia comercial o similar. Necesita un acceso rápido a toda la información relevante en cada caso de entre todo un cuerpo de documentación legal que se actualiza periódicamente.
PyMEs centradas en productos y servicios especializados y que prestan soporte a sus clientes sobre actualizaciones, buenas prácticas, resolución de problemas, etc. Para estas empresas, atender a las solicitudes de los clientes a tiempo supone un esfuerzo notable debido a los recursos limitados con que cuentan, la dispersión documental, la constante actualización de la información y la gran variabilidad en las consultas.

Los asistentes basados en RAG ofrecen una solución óptima a situaciones de este tipo porque proporcionan un acceso rápido y preciso a la información necesaria en cada caso. Sin embargo, su éxito depende de cómo se desplieguen para adaptarse a las particularidades de cada contexto (técnicas utilizadas para el tratamiento de datos y texto, indexación de documentos, etc.), pero también, y de forma muy importante, de los mecanismos de evaluación establecidos para garantizar un rendimiento máximo.

La evaluación de los asistentes basados en RAG se fundamenta principalmente en 2 parámetros:

Precisión. Determina si el contenido de la respuesta proporcionada por el asistente es correcto.
Adecuación. Analiza si la respuesta está bien formulada en términos de extensión (¿demasiada verbosidad? ¿brevedad excesiva?), si el registro se adapta al tipo de usuario (¿exceso o falta de formalidad?), si suena natural en la lengua de destino, etc.

Para garantizar que los asistentes basados en RAG ofrezcan respuestas fiables y adecuadas será necesario desplegar una capa sólida de evaluación. Y aquí es donde entra en juego la tecnología LLM-as-a-Judge.

¿Qué es LLM-as-a-Judge?

LLM-as-a-Judge (LLM-J) es un procedimiento de evaluación que utiliza LLMs para evaluar la calidad de las respuestas generadas por otros modelos. Cabe preguntarse: ¿qué justifica este enfoque? ¿Hasta qué punto es fiable utilizar las capacidades de una IA para evaluar las capacidades de otra IA? Después de todo, ya contamos con mecanismos automatizados para evaluar el rendimiento de sistemas, que se han utilizado durante décadas y que se basan en el discernimiento humano en lugar de la inteligencia artificial.

Y es que los procesos de evaluación basados en conocimiento humano pueden ser automatizados en muchas situaciones. Por ejemplo, si las respuestas esperadas se pueden contrastar de forma fiable sobre un estándar de referencia – en inglés, gold standard (por ej., en el caso de preguntas sí/no, preguntas factuales, etc.) o evaluadas mediante reglas heurísticas (p. ej., cuando las respuestas dependen de determinadas condiciones: si X entonces responde A, si Y entonces responde B). En estos dos casos, es necesaria la competencia humana para generar el conocimiento (conjuntos de datos de referencia, conjuntos de reglas, etc.) que un proceso automatizado utilizará para evaluar los resultados del sistema.

Ahora bien, ¿qué hacer cuando la salida del sistema no implica una solución única? ¿O cuando se presenta como texto libre y no estructurado? ¿O cuando se puede expresar de formas diferentes pero igualmente válidas? Aquí es donde los anteriores métodos automatizados quedan cortos y por el contrario sería necesario un proceso ad hoc de validación humana que evalúe la corrección de cada respuesta.

Pero al igual que los modelos de IA destacan por su competencia en actividades cognitivas generales (como redactar o resumir un texto), también se pueden utilizar para evaluar si la respuesta a una pregunta es correcta, incluso cuando está fraseada diferente a la del estándar de referencia. Así pues, a la hora de evaluar la precisión y adecuación de los asistentes basados en RAG, el método LLM-J tiene un rendimiento muy comparable al de la evaluación humana.

La técnica LLM-J puede implementarse con variaciones concretas para adaptarse a escenarios diferentes, en base a los siguientes aspectos:

¿Verdad de referencia o conjunto de criterios? La alternativa aquí es si el LLM-J debe evaluar respecto de datos de referencia tomados como “verdad de base” (en inglés, ground truth) o bien utilizando un conjunto de criterios que describen qué debe considerarse como aceptable.

La verdad de referencia suele consistir en parejas de pregunta-respuesta. La tarea del evaluador LLM-J es analizar si las respuestas del asistente RAG son equivalentes a las de la referencia, incluso si están expresadas de forma distinta. Por el contrario, el conjunto de criterios no proporciona una respuesta clave sino una descripción de qué tipo de respuesta se espera (por ejemplo, en términos de claridad, extensión, fluidez, registro, etc.). Tanto la verdad de referencia como los criterios son establecidos por humanos, asegurando un nivel último de control.

También existen sistemas que se basan en ambos elementos, cada uno para evaluar un aspecto diferente: la verdad de referencia se puede utilizar para evaluar la precisión de las respuestas (es decir, si proporcionan el contenido correcto), mientras que una batería de criterios puede utilizarse para calificar la adecuación de las respuestas (registro, longitud, grado de fluidez, etc.).
Evaluación de un único modelo o de un conjunto de modelos. El LLM-J puede usarse para evaluar un único modelo o para comparar entre unos cuantos y elegir el ganador. En ambos casos, la evaluación puede apoyarse tanto en una verdad de referencia como en un conjunto de criterios, o en ambos elementos a la vez.

Evaluadores LLM-J en asistentes basados en RAG

Los evaluadores LLM-J pueden apoyar a los asistentes basados en RAG en dos fases de su existencia. En un primer paso, durante el desarrollo del asistente. En este punto, el evaluador LLM-J puede basarse tanto en una verdad de referencia como en un conjunto de criterios. Del mismo modo, la evaluación se puede aplicar sobre varios modelos simultáneamente para elegir el mejor, o sólo sobre uno solo, escogido previamente, para refinar los procesos de recuperación y generación del RAG, y así ajustar el asistente de manera iterativa mejorando la calidad previamente a su despliegue final.

Los evaluadores LLM-J también pueden apoyar a los asistentes RAG en un paso posterior, una vez éstos ya están desplegados y en uso. Dada la imprevisibilidad de las preguntas de los usuarios, no es posible aquí contar con una verdad de referencia, pero se pueden evaluar las respuestas del asistente en función de un conjunto de criterios que permita discriminar las que posiblemente no se adecuan al perfil del usuario, necesitan una capa de postproceso, etc.

En el caso de asistentes híbridos (es decir, asistentes cuyo RAG llama varios LLM para una misma búsqueda), en esta misma fase se pueden utilizar criterios para determinar cuál es la mejor respuesta entre las devueltas por cada modelo.

Herramienta LLM-J para evaluar asistentes RAG

Actualmente existen varios marcos de desarrollo que permiten configurar un proceso de evaluación LLM-J de forma rápida, como por ejemplo langchain i langfuse por citar un par. Lo que es más, algunos de estos recursos permiten visualizar los resultados de una evaluación LLM-J. Sin embargo, en estas herramientas la presentación y posibilidad de consulta de los datos no siempre es la más eficiente para el desarrollador, porque suelen depender del marco tecnológico del proveedor. Por eso, en Process Talks hemos desarrollado una herramienta para evaluar el rendimiento de asistentes basados en RAG, versátil y fácil de utilizar. Está implementada sobre librerías comunes y de acceso gratuito para aprovechar la solidez de estos recursos, pero sin embargo ofrece una independencia completa respecto a plataformas de terceros.

Se puede utilizar para evaluar un único modelo de IA o un conjunto de éstos en paralelo, en base a la misma verdad de referencia o batería de criterios, para escoger el que responderá mejor a los requerimientos del asistente. La siguiente figura muestra una imagen de esta herramienta en un contexto de múltiples modelos.

Visión general de nuestra herramienta de evaluación LLM-J. Permite evaluar modelos en paralelo. La tabla inferior muestra el veredicto del juez LLM-J para cada modelo empleado (columnas) y pruebas realizadas (identificadas como Q0-Q6 en las filas).

Las celdas de la matriz de la figura anterior presentan el resultado de la evaluación LLM-J para cada modelo de IA utilizado por el RAG (por ejemplo, LLAMA 3.1-8B) sobre una prueba concreta (por ejemplo, Q4). Haciendo clic en una celda, se obtienen los detalles de la prueba en cuestión, tal y como se muestra en la siguiente figura. En este caso, el evaluador LLM-J concluye que LLAMA 3.1-8B devuelve la respuesta correcta a la pregunta Q4.

Ejemplo de información proporcionada por cada prueba de evaluación (para un sistema RAG en catalán). La parte inferior presenta, a la izquierda, la respuesta de referencia, y a la derecha, la respuesta devuelta por el sistema RAG. La parte superior detalla la configuración de la prueba: modelo utilizado por el asistente RAG (LLAMA 3.1-8B), la pregunta de la prueba, el veredicto del LLM-J y el comentario del LLM-J – es decir, el razonamiento que le ha llevado a este veredicto.

El diseño es el mismo para las respuestas (parcialmente) erróneas, en este caso naturalmente con un veredicto distinto. La siguiente figura lo ilustra:

Detalles de la prueba de evaluación en un sistema RAG basado ahora en Deepseek-r1-llama-8B. El LLM-J concluye que Deepseek-r1-llama-8B no devuelve la respuesta correcta en esta prueba. También explica por qué considera que la respuesta es incorrecta.

Además, el usuario puede inspeccionar el prompt empleado por el RAG en la prueba en cuestión. De esta forma, a la hora de evaluar el rendimiento de cada LLM se dispone de su configuración completa.

Prompt RAG utilizado para configurar un modelo LLM.

¿Te interesa esta tecnología?

Como se ha visto, la técnica LLM-J es particularmente eficaz para evaluar resultados textuales y no estructurados en los que otros métodos de evaluación automatizados quedan cortos. La integración de esta técnica en un marco de evaluación para sistemas basados en RAG acelera su desarrollo, permitiendo un ajuste iterativo antes de su despliegue y asegurando un nivel alto de rendimiento, precisión y fiabilidad una vez ya en uso en un contexto real.

En Process Talks hemos desarrollado nuestra propia herramienta para integrar la capacidad de la evaluación LLM-J en cualquier proyecto basado en RAG, garantizando una calidad máxima en nuestras soluciones de IA.

Si te interesa, puedes ponerte en contacto con nosotros en hola@processtalks.com.

Tecnología LLM-as-a-Judge y asistentes RAG

febrero 7, 2025 No hay comentarios

Métodos y herramientas Introducción La adopción generalizada de modelos masivos de lenguaje (en inglés Large Language Models, LLM) ha llevado al desarrollo de técnicas para

Leer más "

Olvídate de recordar: Automatiza tareas puntuales con Process Talks

septiembre 18, 2024 No hay comentarios

En la era de la productividad digital, cada pequeño proceso que podemos automatizar representa una carga menos para nuestra mente y nuestro tiempo. En Process

Leer más "

No vuelvas a la rutina en Septiembre

septiembre 3, 2024 No hay comentarios

Se acaban las vacaciones y volvemos a la rutina con los ánimos bajos como cada año. Es el momento en el que muchos nos proponemos

Leer más "

El Poder de las Plataformas de Automatización Híbrida: Cerrando la Brecha entre la Ejecución en la Nube y Local

junio 24, 2024 No hay comentarios

En el panorama en rápida evolución de la automatización empresarial, plataformas como Zapier y Make han revolucionado la manera en que conectamos y automatizamos flujos

Leer más "

Huellas Digitales: Un Resultado de la Automatización Ofimática que incentiva la Transparencia, Eficiencia y el Conocimiento

marzo 28, 2024 No hay comentarios

En el panorama profesional actual, la mayoría de las tareas de oficina —que abarcan roles como contabilidad, secretariado, marketing, ventas y recursos humanos— se ejecutan

Leer más "

Principales consideraciones a la hora de elegir un modelo masivo de lenguaje

marzo 7, 2024 No hay comentarios

Los modelos masivos de lenguaje (MML) están al frente del desarrollo más reciente en inteligencia artificial (IA). Entrenados con decenas, incluso cientos, de miles de

Leer más "

Tecnología LLM-as-a-Judge y asistentes RAG

Introducción

Sistemas RAG: Cómo evaluarlos

¿Qué es LLM-as-a-Judge?

Evaluadores LLM-J en asistentes basados ​​en RAG

Herramienta LLM-J para evaluar asistentes RAG

¿Te interesa esta tecnología?

Tecnología LLM-as-a-Judge y asistentes RAG

Olvídate de recordar: Automatiza tareas puntuales con Process Talks

No vuelvas a la rutina en Septiembre

El Poder de las Plataformas de Automatización Híbrida: Cerrando la Brecha entre la Ejecución en la Nube y Local

Huellas Digitales: Un Resultado de la Automatización Ofimática que incentiva la Transparencia, Eficiencia y el Conocimiento

Principales consideraciones a la hora de elegir un modelo masivo de lenguaje

Evaluadores LLM-J en asistentes basados en RAG