Belangrijke doorbraak van ULiège en NRB op het gebied van traceerbaarheid van door LLM’s gegenereerde antwoorden
Onderzoekers van ULiège en NRB onthullen TreeFinder. Een innovatieve methode om Large Language Models traceerbaar, verifieerbaar en controleerbaar te maken. Een belangrijke doorbraak voor een transparantere en verantwoordelijkere AI
LLM’s traceerbaar, controleerbaar en controleerbaar maken. Dat is de doelstelling van het TreeFinder-algoritme. Een belangrijke doorbraak voor een transparantere en verantwoordelijkere AI. Amper een jaar na de oprichting levert de NRB-ULiège-onderzoeksleerstoel over AI al veelbelovende resultaten.
De leerstoel AI NRB – ULiège, ondertekend in juli 2024, is ontstaan uit een gemeenschappelijke ambitie: het versnellen van de invoering van ethische en performante AI ten dienste van bedrijven, de publieke sector en de samenleving. Het aandachtsgebied is onderzoek en ontwikkeling van LLM toegepast op software engineering. Doel: wetenschappelijke vooruitgang omzetten in concrete oplossingen. En zo bedrijfsprocessen te optimaliseren, het concurrentievermogen van bedrijven te versterken en innovatie aan te moedigen.
Voor professor Damien Ernst, medehouder van de NRB-ULiège-leerstoel, is deze leerstoel ongetwijfeld een voorbeeld van samenwerking tussen de industrie en de academische wereld. “De leerstoel stimuleert fundamenteel onderzoek en stelt NRB in staat nieuwe markten te veroveren.”
TreeFinder, de belofte van betrouwbaardere LLM’s
Het eerste resultaat van deze samenwerking is TreeFinder. Het algoritme biedt een antwoord op een belangrijke zorg: de traceerbaarheid van de antwoorden die door LLM’s worden gegenereerd.
Tot nu toe functioneerden LLM’s als “black boxes”. Ze maken het moeilijk te begrijpen hoe ze hun antwoorden produceren. Dat is cruciaal in gevoelige sectoren zoals gezondheidszorg, recht of financiën. LLM’s missen namelijk belangrijke zinnen in lange contexten. Ze laten zich afleiden door ruis en geven antwoorden die moeilijk te controleren zijn.
TreeFinder verandert dit. Deze eenvoudige en onafhankelijke methode (modelonafhankelijk) identificeert in een lang document de precieze zinnen die het antwoord van het model daadwerkelijk hebben beïnvloed. Het resultaat: betrouwbaardere, controleerbare en certificeerbare vraag-antwoord-systemen. En bovenal systemen die kunnen uitleggen waarom ze antwoorden wat ze antwoorden.
Een methode die theoretisch onderzoek dichter bij de concrete behoeften van bedrijven
brengt. TreeFinder biedt een eenvoudige methode om de zinnen te vinden die door een lineair gemengd model worden gebruikt om een vraag te beantwoorden. Het algoritme combineert de waarschijnlijkheidsmetriek van noodzaak en toereikendheid met een zoekopdracht door de boomstructuur te snoeien. Dit is een concrete stap in de richting van een verklaarbare FAQ. Dit onderzoek is bijzonder waardevol voor toepassingen die lange documenten vereisen, waarbij de betrouwbaarheid van het antwoord cruciaal is.
“LLM’s leveren indrukwekkende prestaties, maar er zijn nog belangrijke uitdagingen om ze controleerbaar en betrouwbaar te maken”, merkt Lize Pirenne op, onderzoeker aan de ULiège en coauteur van TreeFinder. Dankzij onze samenwerking met NRB hebben we een methode kunnen ontwikkelen die theoretisch onderzoek dichter bij de concrete behoeften van bedrijven brengt. “
Concrete toepassingen in verschillende domeinen
Het TreeFinder-algoritme is gebaseerd op twee belangrijke principes. Ten eerste, voldoende: met alleen de geïdentificeerde zinnen behoudt het model bijna dezelfde waarschijnlijkheid om hetzelfde antwoord te genereren. Ten tweede, noodzakelijkheid: als deze zinnen uit de context worden gehaald, daalt de waarschijnlijkheid aanzienlijk.
Door deze signalen te combineren, isoleert TreeFinder de zinnen die “echt belangrijk” zijn voor het genereren van een antwoord, terwijl ruis wordt geëlimineerd.
Deze hiërarchische, snelle en nauwkeurige aanpak maakt het mogelijk om de antwoorden van AI onmiddellijk te controleren, de consistentie te verifiëren, vooroordelen op te sporen en de conformiteit en certificering van AI-systemen te versterken.
Concreet betekent dit dat TreeFinder in de medische sector een klinische synthese kan onderbouwen met de exacte zinnen uit een patiëntendossier. In de juridische sector kan het een antwoord koppelen aan specifieke passages uit een contract of een arrest. En voor bedrijven maakt het het mogelijk om interne AI-engines te beveiligen door uit te leggen welke bronnen het gegeven antwoord hebben beïnvloed.
Een win-winpartnerschap
Samenwerken met NRB was een echte bron van inspiratie, analyseert Lize Pirenne. “We hebben concrete problemen kunnen identificeren die zich voordoen bij de implementatie van AI en daarop antwoorden kunnen geven op basis van fundamenteel onderzoek. Er is een echte synergie ontstaan tussen onderzoekers en ingenieurs om deze uitdagingen om te zetten in innovaties. “
Laurence Mathieu, CEO van NRB, ziet in deze dynamiek de waarde van samenwerking tussen universiteiten en bedrijven: een win-winmodel, waarbij onderzoek profiteert van praktijkvoorbeelden en de industrie zich baseert op gedegen wetenschappelijke expertise om betrouwbare oplossingen te ontwikkelen.
“Grote technologische, economische, educatieve of ethische uitdagingen kunnen alleen worden aangegaan door onze krachten te bundelen. Dat is de hele betekenis van deze leerstoel, die de kracht aantoont van open ecosystemen en duurzame samenwerkingen tussen onderzoek en bedrijfsleven.”



