Ich habe alle 65 Artikel jetzt systematisch fact-gecheckt und die gefundenen Fehler korrigiert. Weil einige direkt gefragt haben wie ich das mit KI mache ohne dass Bullshit durchrutscht, hier die ehrliche Version.
Warum KI überhaupt halluziniert
LLMs sind Wahrscheinlichkeits-Maschinen. Sie sind trainiert das nächstwahrscheinliche Wort vorherzusagen, nicht die Wahrheit zu sagen. Wenn ein Modell Tausende Studien-Zitate im Training gesehen hat, kann es eine Citation generieren die plausibel klingt: Autor existiert, Journal existiert, Jahr passt, Zahlen klingen realistisch. Aber die Kombination ist erfunden. Das ist kein Bug sondern das Wesen der Technologie.
Konkretes Beispiel aus meinem eigenen Training-Artikel: Ich hatte "Sunde et al. 2024" als Autor einer Deload-Studie drin. Die Studie existiert, im richtigen Journal (PeerJ), mit den richtigen Ergebnissen. Aber die Autoren heissen Coleman et al. So sieht Halluzination in freier Wildbahn aus: zu 90% korrekt und gerade deswegen gefährlich.
Stand der Technik
Drei grundsätzliche Ansätze gegen das Problem:
- RAG (Retrieval-Augmented Generation): Modell bekommt echte Quellen als Input, darf nur daraus zitieren. Hilft, aber löst das Problem nicht, weil das Modell die Quellen trotzdem falsch interpretieren kann.
- Fact-Checking-Pipelines: Zweites Modell prüft jede Behauptung post-hoc. Das ist mein Ansatz.
- Verified-Entity-Listen: Vor dem Schreiben eine Datenbank echter Studien aufbauen, dann strikt daraus zitieren.
Was ich programmatisch mache
Zweistufiger Fact-Checker:
Stufe 1 ist ein Post-Generation-Hook. Sobald ich einen Artikel speichere, extrahiert ein Claude-Haiku-Call alle konkreten Behauptungen (Studien-Zitate, Jahreszahlen, Namen, Prozente, Dosierungen) und bewertet sie einzeln. Flag-System: OK, WARN, FAIL. Läuft automatisch in 5 bis 10 Sekunden pro Artikel.
Stufe 2 ist manuelle Web-Verifikation. Jedes FAIL und jedes WARN mit Studien-Claim gehe ich per PubMed-Suche durch und vergleiche gegen das Original-Paper. Wenn falsch: korrigieren. Wenn richtig: mit PubMed-Link inline verlinken.
Was ich gefunden habe
Von 65 Artikeln hatte ich 15+ echte Fehler drin:
- Falsche Journal-Namen (Baz-Valle 2022 war im Journal of Human Kinetics, nicht im JSCR wie ich behauptet hatte)
- Falsche Jahre (Antonio 3,4g/kg-Studie ist 2015, nicht 2016)
- Falsche Autoren (Coleman statt Sunde bei der Deload-Studie)
- Falsche Stichproben-Größen (Pilz-Vitamin-D-Studie hatte 54 Männer, nicht 165 wie im Artikel)
- Falsche Interpretationen (Schoenfeld 2016 zur Frequenz sagt 2x > 1x, nicht "Frequenz egal")
Alle verifizierten Studien sind jetzt unter
ironinsight.de/quellen gelistet, mit PubMed-Links und Kurz-Kontext.
Was das realistisch bedeutet
Ehrlich: KI-gestütztes Schreiben ohne Fact-Checking ist unverantwortlich. Mit Fact-Checking wird es machbar, aber nicht perfekt. Das System fängt Studien-Citations, Zahlen, Namen. Was es nicht fängt: subtile Interpretations-Fehler, stilistischen Schmuh, Forum-Zitate (da müsste ich in jeden Thread zurück), und Preise die veralten.
Und der Fact-Checker selbst ist auch ein LLM, also auch nicht perfekt. Bei meiner Durchsicht hatte er 7 FAIL-Verdikte, davon waren alle 7 falsch (Judge-Fehlurteile). Er hat behauptet "Trenbolon ist kein 19-Nor" (doch, ist eins), "Dorian Yates hat 1992 nicht gewonnen" (doch, sein erster Olympia-Titel), "das Muhammad-Ali-Zitat ist erfunden" (ist ein echtes, dokumentiertes Ali-Zitat).
Was ich gelernt habe: Die Verantwortung bleibt beim Autor. Die Werkzeuge machen gutes Schreiben möglich, nicht einfach. Wer KI benutzt und denkt das Tool macht seine Fehler nicht hat die Technologie nicht verstanden.
Feedback weiterhin willkommen. Besonders wenn ihr noch Fehler findet. Ich packe sie direkt in die Pipeline.