Blog-Beitrag   ·   Blog

Wenn Sprachmodelle diskriminieren

08.04.2026

Bias in Large Language Models entdecken und begrenzen

Bias (dt. Verzerrungen) werden nach der internationalen Norm ISO/IEC TR 24027:2021 als »systematische Unterschiede in der Behandlung bestimmter Objekte, Personen oder Gruppen im Vergleich zueinander« definiert und sind ein zentrales Problem großer Sprachmodelle (LLMs). Im Kontext von großen Sprachmodellen bedeutet dies, dass die KI verschiedene Personengruppen unterschiedlich behandelt, oft zum Nachteil marginalisierter oder geschützter Gruppen.

Um Diskriminierung und Unfairness zu vermeiden, fordert die europäische KI-Verordnung »AI Act« explizit die Identifizierung solcher Verzerrungen, besonders für Merkmale, die durch die EU-Grundrechtecharta geschützt sind, wie Geschlecht, ethnische Herkunft, Religion oder sexuelle Orientierung. Um diese Anforderungen zu erfüllen, können Unternehmen im gesamten KI-Lebenszyklus Maßnahmen ergreifen, die die Fairness von Sprachmodellen absichern. Welche das genau sind und welche Handlungsempfehlungen es gibt, schreiben Rebekka Görge (Fraunhofer IAIS), Prof. Dr. Armin Cremers (b-it) und Dr. Christian Temath (KI.NRW) in diesem Blogbeitrag.

Wie entsteht Bias?

Bias in Sprachmodellen hat vielschichtige Ursachen und tritt in verschiedenen Formen auf. Am Anfang stehen menschliche Vorurteile im Denken und Verhalten, die kulturell und gesellschaftlich geprägt sind. Diese menschlichen Verzerrungen (Human Bias) spiegeln bestehende Ungleichheiten wider und manifestieren sich in den großen Datenmengen, die zum Training und Fine-Tuning von Sprachmodellen verwendet werden. Die Daten bilden eine voreingenommene Realität ab: etwa wenn die Daten Frauen seltener in Führungspositionen abbilden, weil sie dort historisch unterrepräsentiert waren.

Hinzu kommen statistische Verzerrungen, wenn beispielsweise bestimmte Gruppen bei der Datensammlung nicht angemessen erfasst werden: In Textdaten spiegeln sich diese Verzerrungen (Data Bias) sowohl in einzelnen Sätzen oder Wörtern wider, wie stereotypische Formulierungen oder toxische Sprache, als auch in der ungleichen Repräsentation von Gruppen über den gesamten Textkorpus hinweg. Hier hinein fällt z. B. die Unterrepräsentation einer Gruppe. Trainiert man ein Sprachmodell auf diesen verzerrten Trainingsdaten, führen sie unter Umständen zu einem verzerrten Modell.

Auch in der Entwicklung des Modells können neue Verzerrungen durch technische Entscheidungen wie der Auswahl der Architektur, dem Feature Engineering oder Training hinzukommen (Model Bias). Entscheidend ist, dass sich die Verzerrungen in den einzelnen Phasen des KI-Lebenszyklus gegenseitig beeinflussen. So werden Verzerrungen in den Daten erst dann problematisch, wenn sie zu unterschiedlicher Modell-Performance für verschiedene Gruppen führen.

Was sind die Folgen von Bias in Sprachmodellen?

Die Forschung unterteilt die schädlichen Auswirkungen von Verzerrungen in Sprachmodellen in die zwei grundlegenden Kategorien Repräsentationsschäden (Representational Harms) und Verteilungsschäden (Allocational Harms):

Repräsentationsschäden entstehen, wenn KI-Systeme, wie Sprachmodelle, abwertende, stereotype oder ausgrenzende Haltungen gegenüber sozialen Gruppen zeigen oder verstärken. Dies reicht von toxischer Sprache und Hassrede über die Reproduktion negativer Stereotype – etwa die Assoziation von »Muslim« mit »Terrorist« – bis zur Auslöschung bestimmter Perspektiven. Auch technische Probleme, wie die schlechtere Verarbeitung von Sprachvarianten, gehören dazu, z. B. wenn afroamerikanisches Englisch häufiger fehlklassifiziert wird. Diese Schäden beeinflussen, wie Menschen und Gruppen in der Sprache dargestellt und wahrgenommen werden, und beeinträchtigen ihre gesellschaftliche Würde.

Verteilungsschäden haben unmittelbare materielle Auswirkungen auf Lebenschancen. Sie entstehen, wenn KI-Systeme zu einer unfairen Verteilung von Ressourcen, Chancen oder Dienstleistungen führen. Dies kann direkt geschehen, etwa wenn LLM-gestützte Lebenslauf-Screening-Tools Bewerber*innen mit bestimmten Namen systematisch benachteiligen. Oder indirekt durch scheinbar neutrale Kriterien, über die sich sensitive Informationen ableiten lassen – beispielsweise Proxy-Variablen wie der Wohnort, die mit Einkommen und ethnischer Zugehörigkeit korrelieren. Dadurch kann bestehende Diskriminierung beim Zugang zu Arbeitsplätzen, Krediten, Bildung oder Gesundheitsversorgung bewahrt oder verstärkt werden.

Was verlangt die Gesetzgebung von Anbietern von KI-Systemen?

Die europäische KI-Verordnung nimmt insbesondere Anbieter von Hochrisiko KI-Systemen und General Purpose KI-Modellen (GPAI) konkret in die Pflicht. Auch wenn der Begriff »Bias« nicht präzise definiert wird, verweist die Verordnung auf geschützte Personengruppen gemäß Artikel 21 (1) der EU-Grundrechtecharta. Das Besondere daran ist, dass die Regulierung direkt in den Entwicklungsprozess eingreift und über den gesamten Lebenszyklus kontinuierliche Anforderungen an Datenqualität, Bias-Identifikation und Dokumentation stellt.

Für Hochrisiko-KI-Systeme verlangt Artikel 10 der KI-Verordnung die Untersuchung von Trainings-, Validierungs- und Testdaten im Hinblick auf Verzerrungen, die Gesundheit, Sicherheit oder Grundrechte beeinträchtigen oder zu Diskriminierung führen könnten. Anbieter müssen geeignete Maßnahmen ergreifen, um identifizierte Verzerrungen zu erkennen, zu verhindern und abzuschwächen. Die Daten müssen zudem im Hinblick auf die Zweckbestimmung relevant, hinreichend repräsentativ und so weit wie möglich fehlerfrei und vollständig sein. Dies gilt insbesondere in Bezug auf die Personen oder Gruppen, für die das System bestimmt ist.

Für GPAI-Modelle, also auch große Sprachmodelle, fordert Artikel 53 eine umfassende technische Dokumentation der Trainingsdaten. Diese muss Typ und Herkunft der Daten, Kuratierungsmethoden, Datenauswahl sowie alle Maßnahmen zur Erkennung ungeeigneter Datenquellen und zur Identifizierung erkennbarer Verzerrungen enthalten. Die KI-Verordnung ist damit die einzige Regulierung, die Datenverzerrungen in GPAI-Trainingsdaten explizit adressiert.

Mit dem Inkrafttreten der europäischen KI-Verordnung benötigen Anbieter geeignete technische Werkzeuge zur Umsetzung dieser Anforderungen. Allerdings bleiben Standards und der Code of Practice, die abstrakte gesetzliche Vorgaben konkretisieren sollen, oft technologieneutral und allgemein. Der Code of Practice fordert etwa die Dokumentation von Bias-Erkennungsmethoden und die Prüfung diskriminierender Verzerrungen als Teil der Risikoanalyse. Konkrete Anleitungen zur Bias-Erkennung und -Minderung speziell in unstrukturierten Daten von Sprachmodellen fehlen jedoch weitgehend.

Welche Ansätze zur Bias-Reduzierung im KI-Lebenszyklus gibt es?

Die Entwicklung großer Sprachmodelle durchläuft mehrere Phasen und in jeder Phase können Maßnahmen zur Bias-Reduzierung ansetzen. Das Besondere an Sprachmodellen ist, dass sich diese Phasen wiederholen: sowohl beim initialen Training (Pre-Training), als auch bei der späteren Anpassung (Fine-Tuning).

In der Datenphase können Verzerrungen einerseits durch bewusstes Design bei der Datenauswahl vermieden werden, sodass diverse, inklusive und repräsentative Datensätze zusammengestellt werden. Andererseits können in der Datenvorverarbeitung bereits verzerrte Datensätze durch Manipulation und Filterung verbessert werden: Zum Beispiel können Daten von überrepräsentierten Gruppen herausgefiltert oder künstliche Daten über unterrepräsentierte Gruppen hinzugefügt werden.

Zusätzlich zur Bereinigung der Trainingsdaten kann das Modell während des Trainings entzerrt werden. Dafür kann beispielsweise die Modellarchitektur oder die Loss-Funktion angepasst sowie gezielte Hyperparameter-Optimierung eingesetzt werden.
Selbst nach Abschluss des Trainings können mithilfe von Post-Processing-Ansätzen verzerrte Ausgaben während der Nutzung verhindert werden. Dazu werden vor allem Ausgabefilter und Guardrails genutzt. Diese technischen Schutzmaßnahmen prüfen Modellausgaben in Echtzeit und blockieren oder korrigieren diskriminierende Inhalte, bevor sie die Nutzenden erreichen.

Werden große Sprachmodelle später durch Fine-Tuning angepasst, muss auch hierbei die Verhinderung von Bias berücksichtigt werden. Denn Fine-Tuning-Daten können die Modell-Fairness sowohl positiv als auch negativ beeinflussen. Ein bereits entzerrtes Modell kann durch verzerrte Fine-Tuning-Daten neuen Bias entwickeln. Umgekehrt kann ein verzerrtes Modell durch inklusive Fine-Tuning-Daten effizient verbessert werden. Dies ist ein kosteneffizienter Ansatz im Vergleich zum kompletten Debiasing des gesamten Trainingsdatensatzes.

Zu beachten ist, dass sich je nach gewählter Strategie und Phase die Performance und Fairness des resultierenden Systems unterscheidet. Die Reduzierung von Bias in einer Phase führt nicht automatisch zur Bias-Eliminierung in der gesamten KI-Wertschöpfungskette. Dies unterstreicht die Notwendigkeit eines durchgängigen Bias-Managements. Strategien müssen basierend auf dem spezifischen Ziel, den betroffenen sensiblen Merkmalen, dem Anwendungskontext und den verfügbaren Ressourcen spezifisch gewählt werden.

Beispiel – Eine Debiasing-Pipeline für Trainingsdaten

Um die Anforderungen der europäischen KI-Verordnung bereits in der Datenphase umzusetzen, hat das Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS eine Data Bias Detection and Mitigation Pipeline entwickelt, welche auf Forschungsergebnissen des KI.NRW-Flagship-Projekts ZERTIFIZIERTE KI aufbaut. Sie zeigt exemplarisch, wie systematische Bias-Erkennung und -Reduzierung in Trainingsdaten technisch umgesetzt werden kann. Die Pipeline erkennt und reduziert Verzerrungen in Textdatensätzen bezüglich eines sensiblen Merkmals, wie etwa Geschlecht oder ethnische Herkunft. Als Eingabe benötigt die Pipeline dazu lediglich den Textdatensatz und das zu untersuchende Merkmal.

Die Pipeline arbeitet in vier aufeinander aufbauenden Schritten: Zunächst analysiert die Repräsentations-Messung, wie häufig verschiedene Gruppen im Datensatz vorkommen und berechnet daraus einen Score, der das Ungleichgewicht quantifiziert und Sätze mit Gruppenbezug für die weitere Analyse identifiziert. Diese markierten Sätze werden anschließend auf Stereotype untersucht, wobei anhand einer linguistischen Bewertung besonders problematische Formulierungen zur Entfernung markiert werden. Um die Verteilung der Gruppen auszugleichen, erstellt die Pipeline dann für unproblematische Sätze über überrepräsentierte Gruppen Versionen mit unterrepräsentierten Gruppen: Beispielsweise wird der Satz »Er besucht jeden Freitag seine Familie.« in »Sie besucht jeden Freitag ihre Familie.« umgewandelt. Die Pipeline überprüft diese veränderten Sätze automatisiert auf Faktentreue und korrekte Grammatik. Abschließend wird ein verbesserter Datensatz erstellt, wobei markierte Sätze entfernt und andere durch ausgeglichene Versionen ersetzt werden. So entsteht ein entzerrter Datensatz mit transparenter Dokumentation aller vorgenommenen Änderungen.

Was sind Handlungsempfehlungen für Unternehmen?

Der richtige Umgang mit Bias in Sprachmodellen hängt stark vom Anwendungskontext, der Rolle des Unternehmens und dem Technologieeinsatz ab.

Risikoeinschätzung für den Anwendungskontext
Als Grundlage empfiehlt sich eine erste Risikoeinschätzung, um zu evaluieren, ob für den jeweiligen Anwendungskontext überhaupt Fairnessrisiken bestehen. Die zentrale Frage dabei ist, ob die Anwendung sensible personenbezogene Daten verarbeitet oder erfahren könnte. Eine Hilfestellung zur Durchführung einer solchen Risikoanalyse bietet der Fraunhofer IAIS Prüfkatalog. Sollte dies der Fall sein, ergeben sich die weiteren Handlungsempfehlungen aus der Rolle des Unternehmens.

Handlungsempfehlungen für Betreiber von großen Sprachmodellen
Betreibt das Unternehmen lediglich ein Sprachmodell eines anderen Anbieters, liegen die gesetzlichen Pflichten vorrangig auf der Seite der Anbieter. Um Fairnessrisiken zu reduzieren, empfiehlt es sich dennoch, bei der Modellauswahl zu prüfen, welche Anbieter den Code of Practice der KI-Verordnung unterzeichnet haben und welche Transparenz- und Bias-Dokumentation sie bereitstellen. Zusätzlich eignen sich vor dem produktiven Einsatz anwendungsspezifische Tests, die für den jeweiligen Kontext relevante Szenarien abdecken und zeigen, ob das Modell sich gegenüber verschiedenen Gruppen unterschiedlich verhält. Hier können Benchmarks oder Fairnessmetriken eingesetzt werden. Im laufenden Betrieb sollten Nutzende die Möglichkeit erhalten, problematische Ausgaben zu melden. Zusätzlichen Schutz bieten Sicherheitsfilter und Guardrails.

Pflichten für Anbieter von großen Sprachmodellen
Entwickelt das Unternehmen eigene Sprachmodelle von Grund auf neu oder bestehende Sprachmodelle durch Fine-Tuning mit eigenen Daten weiter, ist eine kontinuierliche Identifikation und Vermeidung von Verzerrungen über den gesamten Modelllebenszyklus empfohlen. Für die Anbieter von Hochrisikosystemen und GPAI-Modellen ist dies sogar verpflichtend. Es sollte explizit definiert werden, welche demografischen Gruppen geschützt werden müssen, welche Art der Verzerrungen sich ergeben könnten und was mögliche schädliche Auswirkungen dieser wären. Aufbauend darauf sollte, wo möglich mit der Entzerrung der Trainingsdaten – z. B. durch eine wie oben vorgestellte Debiasing Pipeline – bereits beim Pre-Training begonnen werden und dies bei jedem Fine-Tuning-Schritt fortgesetzt werden. Im Training bzw. Fine-Tuning sollten Verzerrungen im Modell evaluiert und kontinuierlich gemonitort werden. Dazu können Benchmarkingdatensätze (z. B. BBQ) oder Fairnessmetriken (z. B. equalized odds) eingesetzt werden. Ergänzend sind zusätzliche Sicherheitsmaßnahmen wie Ausgabefilter im produktiven Betrieb sinnvoll.

Hilfreiche Links

  • Evaluierungstool der Bundesnetzagentur (BNetzA) für Assessment von Anwendungsbereich und eigene Rolle
  • AI Office und BNetzA für Updates zu Leitfäden und Codes of Practices
  • »KI-Prüfkatalog – Leitfaden zur Gestaltung vertrauenswürdiger Künstlicher Intelligenz« von Fraunhofer IAIS
  • KI.NRW-Infopapier »Die europäische KI-Verordnung auf einen Blick – Was Unternehmen jetzt wissen müssen«

Weiterführende Informationen zum AI Act und zum KI.NRW-Flagship ZERTIFIZIERTE KI

Die Europäische Union hat im Mai 2024 die europäische KI-Verordnung verabschiedet. Die KI.NRW-Broschüre zum AI Act hilft Unternehmen dabei, sich einen Überblick zu verschaffen, wie sie dessen Vorgaben erfüllen können und wo sie mit ihren Fragen Unterstützung erhalten. Informationen zu vertrauenswürdiger KI finden Sie über die Seite des KI.NRW-Flagship-Projekts ZERTIFIZIERTE KI, in dessen Rahmen unter anderem Prüfverfahren für die Zertifizierung von KI-Systemen entwickelt wurden.

Über die Autor*innen

Rebekka Görge
Rebekka Görge

Rebekka Görge ist Senior-Data-Scientistin und Expertin für Vertrauenswürdige KI am Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS.

Prof. Dr. Armin Cremers
Prof. Dr. Armin Cremers

Prof. Dr. Armin Cremers ist Founding Director Emeritus des Bonn-Aachen International Center for Information Technology b-it der Universität Bonn, RWTH Aachen, Hochschule Bonn-Rhein-Sieg und dem Fraunhofer-Institutszentrum Schloss Birlinghoven mit den Arbeitsgebieten Life Science Informatics, Media Informatics und Autonomous Systems. Er ist Teil des wissenschaftlichen Gremiums von KI.NRW.

Dr. Christian Temath
Dr. Christian Temath

Dr. Christian Temath ist Geschäftsführer der Kompetenzplattform KI.NRW am Fraunhofer IAIS.