bloc

Tecnologia LLM-as-a-Judge i assistents RAG

Mètodes i eines

Introducció

L’adopció generalitzada de models massius de llenguatge (en anglès Large language Models, LLMs) ha portat al desenvolupament de tècniques per poder optimitzar-ne les seves capacitats en situacions diverses. Per exemple, la tècnica coneguda amb el terme anglès de fine-tuning s’utilitza per adaptar un model fundacional a una tasca o domini concret entrenant-lo amb un conjunt més petit de dades especialitzades; el prompting guia les respostes d’un model fundacional sense necessitat d’entrenament o alineació addicional; i la retrieval-augmented generation (RAG) permet d’obtenir informació de fonts externes en temps real i de manera precisa, reduint la dependència a les dades estàtiques del cos de coneixement del model inicial.

Totes aquestes tècniques necessiten però el suport de mètodes d’avaluació sòlids, no només per accelerar el desplegament de l’aplicació final sinó, el que és més important, per garantir-ne resultats precisos i fiables. En aquest article ens centrem en un d’aquests mètodes, conegut en anglès com a LLM-as-a-Judge, aplicat en assistents virtuals basats en RAG. Igualment, presentem una eina desenvolupada a Process Talks per facilitar l’aplicació d’aquest mètode d’avaluació als vostres projectes.

Sistemes RAG: Com avaluar-los

Imagineu-vos els següents escenaris:

  • Tècnics municipals que assessoren sobre normatives, decrets i regulacions a ciutadans que volen obtenir un permís d’obres, una llicència comercial o similar. Els cal un accés ràpid a tota la informació rellevant en cada cas d’entre tot un cos de documentació legal que s’actualitza periòdicament. 
  • PiMEs centrades en productes i serveis especialitzats i que presten suport als seus clients sobre actualitzacions, bones pràctiques, resolució de problemes, etc. Per a aquestes empreses, atendre les sol·licituds dels clients a temps suposa un esforç notable a causa dels recursos limitats amb què compten, la dispersió documental, l’actualització constant de la informació i la gran variabilitat en les consultes.

Els assistents basats en RAG ofereixen una solució òptima a situacions d’aquest tipus perquè proporcionen un accés ràpid i precís a la informació que cal en cada cas. No obstant això, el seu èxit depèn de com es desplegui el sistema per adaptar-se a les particularitats de cada context (tècniques utilitzades per al tractament de dades i text, indexació de documents, etc.), però també, i de manera molt important, dels mecanismes d’avaluació establerts per garantir-ne un rendiment màxim.

L’avaluació dels assistents basats en RAG es fonamenta principalment en 2 paràmetres:

  • Precisió. Determina si el contingut de la resposta proporcionada per l’assistent és correcte.
  • Adequació. Analitza si la resposta està ben formulada en termes d’extensió (massa verbositat? brevetat excessiva?), si el registre s’adapta al tipus d’usuari (excés o manca de formalitat?), si sona natural en la llengua de destinació, etc.  

Per garantir que els assistents basats en RAG ofereixin respostes fiables i adequades caldrà doncs desplegar una capa sòlida d’avaluació. I aquí és on entra en joc la tecnologia LLM-as-a-Judge.

Què és LLM-as-a-Judge?

LLM-as-a-Judge (LLM-J) és un procediment d’avaluació que utilitza LLMs per avaluar la qualitat de les respostes generades per altres models. Ens podem preguntar: què justifica aquest enfoc? Fins a quin punt és fiable utilitzar les capacitats d’una IA per avaluar les capacitats d’una altra IA? Al capdavall, ja comptem amb mecanismes automatitzats per avaluar el rendiment de sistemes, que s’han utilitzat durant dècades i que es basen en el discerniment humà en lloc de la intel·ligència artificial. 

I és que els processos d’avaluació basats en expertesa humana poden ser automatitzats en moltes situacions. Per exemple, si les respostes esperades es poden contrastar de manera fiable sobre un estàndard de referència – en anglès, gold standard (per ex., en el cas de preguntes sí/no, preguntes factuals, etc.) o avaluades mitjançant regles heurístiques (p. ex., quan les respostes depenen de determinades condicions: si X llavors respon A, si Y llavors respon B). En aquests dos casos, cal l’expertesa humana per generar el coneixement (conjunts de dades de referència, conjunts de regles, etc.) que un procés automatitzat farà servir per avaluar els resultats del sistema.

Ara bé, què fer quan la sortida del sistema no implica una solució única? O quan es presenta com a text lliure i no estructurat? O quan es pot expressar de maneres diferents però igualment vàlides? Aquí és on els anteriors mètodes automatitzats queden curts i caldria per contra un procés ad hoc de validació humana que avalui la correcció de cada resposta. 

Però de la mateixa manera que els models d’IA destaquen per la seva competència en activitats cognitives generals (com redactar o resumir un text), també es poden utilitzar per avaluar si la resposta a una pregunta és correcta, fins i tot quan està frasejada diferent de la l’estàndard de referència. Així doncs, a l’hora d’avaluar la precisió i l’adequació dels assistents basats en RAG, el mètode LLM-J té un rendiment molt comparable al de l’avaluació humana.

La tècnica LLM-J pot implementar-se amb variacions concretes per adaptar-se a escenaris diferents, en base als següents aspectes:

  • Veritat de referència o conjunt de criteris? L’alternativa aquí és si l’LLM-J ha d’avaluar respecte de dades de referència preses com a “veritat de base” (en anglès, ground truth) o bé fent servir un conjunt de criteris que descriuen què s’ha de considerar com a acceptable.

    La veritat de referència sol consistir en parelles de pregunta-resposta. La tasca de l’avaluador LLM-J és analitzar si les respostes de l’assistent RAG són equivalents a les de la referència, fins i tot si estan expressades de manera diferent. Per contra, el conjunt de criteris no proporciona una resposta clau sinó una descripció de quin tipus de resposta s’espera (per exemple, en termes de claredat, extensió, fluïdesa, registre, etc.). Tant la veritat de referència com els criteris són establerts per humans, assegurant així un nivell últim de control.

    També hi ha sistemes que es basen en tots dos elements, cada un per avaluar un aspecte diferent: la veritat de referència es pot utilitzar per avaluar la precisió de les respostes (és a dir, si proporcionen el contingut correcte), mentre que una bateria de criteris pot fer-se servir per qualificar l’adequació de les respostes (registre, longitud, grau de fluïdesa, etc.).
  • Avaluació d’un únic model o d’un conjunt de models. L’LLM-J pot usar-se per avaluar un únic model o per comparar-ne uns quants  i triar-ne un de guanyador. En tots dos casos, l’avaluació es pot recolzar tant en una veritat de referència com en un conjunt de criteris, o en tots dos elements a la vegada.

Avaluadors LLM-J en assistents basats en RAG

Els avaluadors LLM-J poden donar suport als assistents basats en RAG en dues fases de la seva existència. En un primer pas, durant el desenvolupament de l’assistent. En aquest punt, l’avaluador LLM-J pot basar-se tant en una veritat de referència com en un conjunt de criteris. De la mateixa manera, l’avaluació es pot aplicar sobre diversos models simultàniament per triar-ne el millor, o només sobre un de sol, escollit prèviament, per tal de refinar els processos de recuperació i generació del RAG, i doncs anar ajustant l’assistent de manera iterativa, millorant-ne la qualitat prèviament al seu desplegament final.

Els avaluadors LLM-J també poden donar suport als assistents RAG en un pas posterior, un cop aquests ja estan desplegats i en ús. Donada la imprevisibilitat de les preguntes dels usuaris, aquí no es pot comptar amb una veritat de referència, però sí que es pot avaluar les respostes de l’assistent en funció d’un conjunt de criteris que permeti de discriminar-ne les que possiblement no s’adeqüen al perfil de l’usuari, necessiten una capa de postprocés, etc.

En aquesta mateixa fase també es pot utilitzar un conjunt de criteris en el cas d’assistents híbrids, és a dir, assistents el RAG del quals crida diversos LLMs per a una mateixa cerca. En aquest cas, el conjunt de criteris serveix per determinar quina és la millor resposta entre les retornades per cada model.   

Eina LLM-J per avaluar assistents RAG

Actualment hi ha diversos marcs de desenvolupament que permeten configurar un procés d’avaluació LLM-J de manera ràpida, com ara langchain i langfuse per citar-ne un parell. El que és més, alguns d’aquests recursos permeten visualitzar els resultats d’una avaluació LLM-J. Tot i així, en aquestes eines la presentació i possibilitat de consulta de les dades no sempre és la més eficient per al desenvolupador perquè solen dependre del marc tecnològic del proveïdor. Per això, a Process Talks hem desenvolupat una eina per avaluar el rendiment d’assistents basats en RAG, versàtil i fàcil d’utilitzar. Està implementada sobre llibreries comunes i d’accés gratuït per aprofitar la solidesa d’aquests recursos, però permet tanmateix una independència completa respecte de plataformes de tercers.

Es pot utilitzar per avaluar un únic model d’IA o tot un conjunt d’aquests en paral·lel, en base a la mateixa veritat de referència o bateria de criteris, per tal d’escollir-ne el que respondrà millor als requeriments del vostre assistent. La figura següent mostra una imatge d’aquesta eina en un context de múltiples models.

Visió general de la nostra eina d’avaluació LLM-J. Permet avaluar models en paral·lel. La taula inferior mostra el veredicte del jutge LLM-J per a cada model emprat (columnes) i proves realitzades (identificades com a Q0-Q6 a les files).

Les cel·les de la matriu de la figura anterior presenten el resultat de l’avaluació LLM-J per a cada model d’IA utilitzat pel RAG (per exemple, LLAMA 3.1-8B) sobre una prova concreta (per exemple, Q4).  Fent clic a una cel·la, s’obté els detalls de la prova en qüestió, tal com es mostra a la figura següent. En aquest cas, l’avaluador LLM-J conclou que LLAMA 3.1-8B ofereix la resposta correcta a la pregunta Q4.

Exemple d’informació proporcionada per a cada prova d’avaluació (per a un sistema RAG en català). La part inferior presenta, a l’esquerra, la resposta de referència, i a la dreta, la resposta retornada pel sistema RAG. La part superior detalla la configuració de la prova: model utilitzat per l’assistent RAG (LLAMA 3.1-8B), la pregunta de la prova, el veredicte de l’LLM-J i el comentari de l’LLM-J – és a dir, el raonament que l’ha portat a aquest veredicte.

El disseny és el mateix per a les respostes (parcialment) errònies, en aquest cas naturalment amb un veredicte diferent. La següent figura ho il·lustra:

Detalls de la prova d’avaluació en un sistema RAG basat ara en Deepseek-r1-llama-8B. L’LLM-J conclou que Deepseek-r1-llama-8B no retorna la resposta correcta en aquesta prova. També explica per què considera que la resposta és incorrecta.

A més, l’usuari pot inspeccionar el prompt emprat pel RAG en cada prova. D’aquesta  manera, a l’hora d’avaluar el rendiment de cada un dels LLM usats pel RAG es disposa de la seva configuració completa.

Prompt RAG utilitzat per configurar un model LLM.

T’interessa aquesta tecnologia?

Com s’ha vist, la tècnica LLM-J és particularment eficaç per avaluar resultats textuals i no estructurats on altres mètodes d’avaluació automatitzats queden curts. La integració d’aquesta tècnica en un marc d’avaluació per a sistemes basats en RAG n’accelera el seu desenvolupament, permetent un ajust iteratiu abans del seu desplegament. A més,  n’assegura un nivell alt de rendiment, precisió i fiabilitat un cop ja en ús en un context real.

A Process Talks hem desenvolupat la nostra pròpia eina per integrar la capacitat d’aquesta tecnologia en qualsevol projecte basat en RAG, garantint així una qualitat màxima a les nostres solucions d’IA.

Si us interessa, podeu posar-vos en contacte amb nosaltres a hola@processtalks.com.

Facebook
Twitter
LinkedIn