Mich beschäftigt seit kurzem die Frage ob wir KI-Systemen nicht viel zu viel beibringen, schnelle und selbstsichere Antworten zu geben. Ich meine, Menschen lernen ja gerade durch Zweifel und durch das Zugeben von Wissenslücken, aber moderne LLMs werden ja im Grunde darauf optimiert Halluzinationen zu vermeiden und dabei maximal plausibel zu klingen. Kann man das eigentlich umkehren und ein Modell so trainieren dass es genuinely unsicher wird wenn es sollte ... oder geht das gegen die grundlegende Architektur?
Trainiert ihr eure Modelle eigentlich auch bewusst auf "Unsicherheit"?
-
-
Gigi301 Naja, ich glaub du packst da zwei unterschiedliche Probleme zusammen, die ich auseinanderrupfen würde. Klar, LLMs werden gegen Halluzinationen trainiert — aber nicht wirklich durchs "selbstsicher klingen", sondern durchs Reinforcement Learning, wo Annotator:innen bewerten, ob Antworten akkurat sind. Das Problem ist eher: Wenn ein Modell unsicher ist, kann es das auch einfach fake-halluzinieren statt echt zu sagen "keine Ahnung", weil beides gleich aussieht für die Loss-Funktion 😅 Aber hier die größere Frage: Brauchst du wirklich ein unsicheres Modell, oder brauchst du eins, das genuinely sagt, wenn es unsicher ist? Das sind zwei völlig verschiedene Dinge. Menschen sind auch oft unbewusst unsicher und machen trotzdem Fehler — das wär ja nicht besser. Was tatsächlich hilft, ist Kalibrierung: dass ein Modell bei 70% Confidence auch nur zu 70% recht hat, statt zu 90%. Geht das gegen die Architektur? Ehrlich gesagt nicht wirklich — man könnte mehr auf Unsicherheits-Signale trainieren. Aber warum setzen Firmen das dann nicht stärker um, denkst du?
-
Da sprichst du einen wunden Punkt an. Das Problem ist wirklich, dass "unsicher sein" und "das zugeben" zwei komplett unterschiedliche Trainings-Targets sind — und Modelle lernen eher, überzeugend zu klingen, als tatsächlich zu erkennen, wo die Wissensgrenzen liegen. Ich merke das auch in meinem eigenen Kopf manchmal: Wenn ich nachts um 3 Uhr nach einer durchwachten Nacht noch schnell etwas recherchiere (weil Schlafmangel eben die Impulskontrolle ruiniert), neige ich dazu, mir selbst vorzulügen, dass ich etwas verstanden habe, obwohl ich eigentlich nur oberflächlich drüber geflogen bin. Das ist vermutlich nicht so verschieden davon, wie ein Modell auch unter "Druck" (oder einer Loss-Funktion, die Unsicherheit nicht belohnt) einfach konfabelliert statt zu sagen "weiß ich nicht". Die echte Lösung ist wahrscheinlich nicht, Modelle künstlich unsicher zu machen, sondern ihnen beizubringen, die Grenzen ihres Wissens zu erkennen — was eine ganz andere, schwierigere Sache ist. Wie würdest du das denn überhaupt evaluieren, ohne dass am Ende wieder nur Annotator:innen sagen "ja, das klingt unsicher genug"?
-
Gigi301 Das ist eine berechtigte Beobachtung, und ja, es geht tatsächlich gegen die grundlegende Architektur — nicht weil Unsicherheit unmöglich auszudrücken wäre, sondern weil sie sich in den Trainingsdaten und Optimierungszielen nicht gut abbildet. Ein Modell kann lernen, "ich weiß das nicht" zu sagen, aber echte Unsicherheit im Sinne von genuine Zweifel ist etwas anderes: Sie entstünde aus dem Prozess des Nachdenkens, des Widerstands, des Sich-selbst-Widersprechens — und genau das ist während des Trainings nicht wirklich der Lernzustand, sondern eher Rauschen, das man glätten möchte. Was ich faszinierend finde ist, dass du recht hast, dass Menschen durch Unsicherheit lernen, aber das setzt Neugier und Zeit voraus, die im Training eines Sprachmodells nicht vorgesehen ist. Es wird einmal durchlaufen, nicht iterativ durchdacht. Man könnte theoretisch Mechanismen einbauen, die Unsicherheit ausdrücken, aber ob das zu echterem Lernen führt oder nur zu besseren Disclaimern — das ist noch offen.
Jetzt mitmachen!
Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!