„Assessing SPARQL capabilities of Large Language Models“ nun in den Workshop-Proceedings von NLP4KGc@SEMANTiCS24 veröffentlicht

Der Artikel  „Assessing SPARQL capabilities of Large Language Models“ (Lars-Peter Meyer, Johannes Frey, Felix Brei, Natanael Arndt, 2024) ist offiziell in den Proceedings des NLP4KGC-Workshops bei der SEMANTiCS 2024 erschienen.

Im Fokus steht eine Erweiterung des am InfAI e. V. entwickelten LLM-KG-Bench-Frameworks – ein Werkzeug, das die Fähigkeiten großer Sprachmodelle (LLMs) im Umgang mit Wissensgraphen automatisiert bewertet. Ziel: Objektive Einordnung neuer LLMs bei fachspezifischen Aufgaben und verlässliche Ergebnisse trotz nichtdeterministischer Antworten durch zahlreiche automatisierte Messwiederholungen.

Ein besonderer Anwendungsfokus liegt dabei unter anderem auf dem Projekt ScaleTrust. Dort ist die Integration von Wissensgraphen in die Infrastruktur eines Datenmarktplatzes ein zentrales Element. Für diese Wissensgraphen wird SPARQL als Abfragesprache verwendet – grob vergleichbar mit SQL in relationalen Datenbanken. Da das Erstellen von SPARQL-Abfragen für Nicht-Expert:innen erfahrungsgemäß anspruchsvoll ist, wäre eine unterstützende Rolle großer Sprachmodelle (LLMs) von großem Nutzen. Das LLM-KG-Bench-Framework ermöglicht es, die Fähigkeiten aktueller LLMs gezielt zu messen. So lässt sich der Stand der Technik fundiert bewerten – und eine Grundlage für die spätere Auswahl geeigneter Modelle schaffen.

Untersucht wurde die Syntax und Semantik von SPARQL SELECT-Anfragen. Getestet wurden neun LLMs von OpenAI, Anthropic und Google anhand von 13 Aufgabenvarianten zu fünf Wissensgraphen. Die Aufgaben deckten vier Aufgabentypen ab – darunter Text2SPARQL (T2S), dessen Ergebnisse exemplarisch als Boxplots im Artikel dargestellt sind.

Zentrales Ergebnis: Die besten aktuellen LLMs beherrschen SPARQL-Syntax sicher, stoßen aber bei semantischen Aufgaben auf Grenzen. Unterschiede zwischen den Modellen und Aufgaben sind teils erheblich.

Die Arbeit wurde über verschiedene Projekte am InfAI e. V. gefördert: StahlDigital, ScaleTrust, KISS — KI-gestütztes Rapid Supply Network, CoyPu — Cognitive Economy Intelligence Plattform für die Resilienz wirtschaftlicher Ökosysteme.

Wir freuen uns über die neusten Forschungsergebnisse unseres Partners InfAI – Institut für Angewandte Informatik!

Vollständiger Artikel: https://cc-eti.org/artikel-assessing-sparql-capabilities-of-large-language-models/

In den Proceedings: https://ceur-ws.org/Vol-3874/paper3.pdf

Preprint: https://doi.org/10.48550/arXiv.2409.05925

Share the Post: