Damit Daten nicht nur gespeichert, sondern auch sinnvoll genutzt werden können, braucht es mehr als reine Formate oder Schnittstellen. Entscheidend ist, dass Daten eine gemeinsame Bedeutung erhalten, also eine Semantik, die sowohl für Menschen als auch für Maschinen verständlich ist. Im Projekt ScaleTrust und der weiteren Entwicklung des Advaneo Data Marketplace (DMP) wird genau diese Grundlage mitgedacht, gemeinsam mit dem Institut für Angewandte Informatik (InfAI) e.V., das seine Expertise im Bereich semantischer Technologien einbringt.
Scroll down for English version.
Warum Semantik unverzichtbar ist
Unterschiedliche Organisationen beschreiben ihre Datensätze oft auf verschiedene Weise. Mal steht dort „Ort“, mal „Location“, mal nur eine Abkürzung. Für Maschinen bedeutet das: keine klare Zuordnung. Semantische Standards sorgen dafür, dass solche Informationen eindeutig interpretierbar werden, unabhängig von Sprache oder Schreibweise. Das macht Daten interoperabel und schafft die Basis für automatisierte Verarbeitung.
Die eingesetzten Standards
ScaleTrust orientiert sich an den Konzepten der International Data Spaces Association (IDSA) und setzt weiterhin auf international etablierte Standards wie:
- RDF zur Beschreibung von Beziehungen zwischen Ressourcen als Grundlage für semantische Datenmodellierung und Wissensrepräsentationen.
- Vokabulare wie DCTerms zur Beschreibung digitaler Ressourcen und FOAF zur Beschreibung von Personen und deren Beziehungen im Web.
- DCAT zur Beschreibung von Datenkatalogen und deren Inhalt und spezieller DCAT-AP als Anwendungsprofil von DCAT für europäischen Datenportale.
Durch diese Standards werden Daten anschlussfähig und lassen sich ohne aufwändige Transformation mit anderen Quellen kombinieren.
Vom Datensatz zum Wissensgraph
Aus den Metadaten entsteht ein Wissensgraph – ein Netz aus Informationen, das Zusammenhänge sichtbar macht. Ein Beispiel: „Connewitz“ ist nicht nur als Begriff gespeichert, sondern wird automatisch mit der Stadt Leipzig, dem Bundesland Sachsen und Deutschland verknüpft, inklusive Referenzen zu Wikidata oder GeoNames. Suchen nach Leipzig als Stadtname können dadurch auch Ergebnisse zu Connewitz liefern.
So werden Daten nicht isoliert betrachtet, sondern als Teil eines größeren Wissensnetzes verstanden.
Verbindung zum Advaneo DMP
Die semantische Schicht bildet im Projekt ScaleTrust das Fundament, auf dem der Advaneo DMP aufsetzt, welcher ein zentraler Baustein des Green Deal Dataspace (GDDS) ist, sowie Grundlage für die gemeinsame, vertrauensvolle Nutzung von Daten als Data Spaces-fähige Technologie. Einheitlich beschriebene Metadaten sorgen dafür, dass Datenangebote besser auffindbar, vergleichbar und miteinander kombinierbar sind.
Das InfAI spielt eine zentrale Rolle in der Entwicklung dieser semantischen Schicht. Das Institut erforscht, wie Wissensgraphen noch leistungsfähiger genutzt werden können. Dabei spielt unter anderem SPARQL eine wichtige Rolle als die Abfragesprache für semantische Daten. Da das Schreiben solcher Abfragen oft komplex ist, arbeitet das InfAI an KI-gestützten Verfahren, die automatisch SPARQL-Abfragen aus natürlicher Sprache generieren. Mit Projekten wie „ARUQULA“ war das InfAI bereits erfolgreich bei internationalen Wettbewerben, was den innovativen Ansatz bestätigt. Diese Forschung fließt direkt in ScaleTrust und damit auch in den Advaneo DMP ein und macht die Plattform fit für künftige, noch intelligentere Datennutzung.
[English version]
Semantics in the ScaleTrust project – connecting data through meaning
For data to be not only stored but also used effectively, more is needed than just formats or interfaces. What really matters is that data is given a common meaning — a semantics that both humans and machines can understand. In the ScaleTrust project, and in the further development of the Advaneo Data Marketplace (DMP), this foundation is being developed together with the Institute for Applied Informatics (InfAI), which contributes its expertise in semantic technologies.
Why semantics are essential
Different organizations often describe their datasets in different ways. Sometimes it says “place”, sometimes “location,” or just an abbreviation is used. For machines, this means: no clear assignment. Semantic standards ensure that such information can be interpreted unambiguously — regardless of language or spelling. This makes data interoperable and provides the basis for automated processing.
The standards in use
ScaleTrust follows the concepts of the International Data Spaces Association (IDSA) and builds on internationally recognized standards such as:
- RDF for describing relationships between resources as a foundation for semantic data modeling and knowledge representation.
- Vocabularies like DCTerms to describe digital resources and FOAF to describe people and their relationships on the web.
- DCAT for describing data catalogs and their contents, and DCAT-AP as a specific application profile for European data portals.
Through these standards, data become compatible and can be combined with other sources without complex transformations.
From dataset to knowledge graph
Metadata form the basis for a knowledge graph — a network of information that reveals connections.
For example, “Connewitz” is not just stored as a term; it is automatically linked to the city of Leipzig, the state of Saxony, and Germany, including references to Wikidata or GeoNames. A search for “Leipzig” as a city name can therefore also return results related to Connewitz.
This means that data are not viewed in isolation but understood as part of a larger knowledge network.
Connection to the Advaneo DMP
Within the ScaleTrust project, the semantic layer forms the foundation on which the Advaneo DMP is built. The marketplace is a key component of the Green Deal Dataspace (GDDS) and serves as the basis for the trusted and interoperable use of data in data-space technologies. Uniformly described metadata ensure that data offerings are easier to find, compare, and combine.
The InfAI plays a central role in developing this semantic layer. The institute explores how knowledge graphs can be used even more effectively. One important element is SPARQL, the query language for semantic data. Since writing SPARQL queries can be complex, InfAI is working on AI-based methods that automatically generate SPARQL queries from natural language. With projects like “ARUQULA”, InfAI has already achieved international success — proof of its innovative approach. This research directly contributes to ScaleTrust and the Advaneo DMP, preparing the platform for even more intelligent data use in the future.