Zum Inhalt

German Q&A-Gen

Erstellung von Datensätzen für das Fine-Tuning von Information Retrieval Modellen (German Q&A-Gen)

Programm / Ausschreibung KIRAS, F&E-Dienstleistungen, KIRAS-K-Pass-KMU Innovation AKUT KIA F&E Dienstleistungen (FED KIA_2024) Status laufend
Projektstart 01.02.2026 Projektende 30.09.2026
Zeitraum 2026 - 2026 Projektlaufzeit 8 Monate
Projektförderung € 99.960
Keywords Retrieval-Modelle, Open Source, LLM

Projektbeschreibung

Im Zuge des Projekts wird eine Open-Source-Software zur automatisierten Generierung spezialisierter Trainingsdaten für Information Retrieval-Modelle erstellt. Diese umfassen 5.000 Frage-Antwort-Paare aus behördlichen BMI-Dienstvorschriften, davon 1.000-2.500 manuell validierte Gold-Standard-Paare. Die Q&A-Paare berücksichtigen erstmals systematisch BMI-Behördensprache mit dualen Sprachregistern (formal/umgangssprachlich) und dienen zur Optimierung des bestehenden RAG-Systems. Innovative Qualitätssicherungsmechanismen wie semantische Duplikatserkennung und Persona-basierte Fragegenerierung gewährleisten hochwertige Datenqualität (Vermeidung von Bias & Duplikaten). Die On-Premise-Implementierung schafft technologische Unabhängigkeit.

Abstract

As part of the project, open-source software for the automated generation of specialized training data for Information Retrieval models will be developed. This includes 5,000 question-answer pairs from BMI administrative service regulations, of which 1,000-2,500 are manually validated gold standard pairs. The Q&A pairs systematically consider BMI administrative language with dual language registers (formal/colloquial) for the first time and serve to optimize the existing RAG system. Innovative quality assurance mechanisms such as semantic duplicate detection and persona-based question generation ensure high data quality (prevention of bias & duplicates). The on-premise implementation creates technological independence.