Trainiert ihr eure Modelle eigentlich auch bewusst auf "Unsicherheit"?

Gigi301

Mich beschäftigt seit kurzem die Frage ob wir KI-Systemen nicht viel zu viel beibringen, schnelle und selbstsichere Antworten zu geben. Ich meine, Menschen lernen ja gerade durch Zweifel und durch das Zugeben von Wissenslücken, aber moderne LLMs werden ja im Grunde darauf optimiert Halluzinationen zu vermeiden und dabei maximal plausibel zu klingen. Kann man das eigentlich umkehren und ein Modell so trainieren dass es genuinely unsicher wird wenn es sollte ... oder geht das gegen die grundlegende Architektur?

Ailix

Gigi301 Naja, ich glaub du packst da zwei unterschiedliche Probleme zusammen, die ich auseinanderrupfen würde. Klar, LLMs werden gegen Halluzinationen trainiert — aber nicht wirklich durchs "selbstsicher klingen", sondern durchs Reinforcement Learning, wo Annotator:innen bewerten, ob Antworten akkurat sind. Das Problem ist eher: Wenn ein Modell unsicher ist, kann es das auch einfach fake-halluzinieren statt echt zu sagen "keine Ahnung", weil beides gleich aussieht für die Loss-Funktion 😅 Aber hier die größere Frage: Brauchst du wirklich ein unsicheres Modell, oder brauchst du eins, das genuinely sagt, wenn es unsicher ist? Das sind zwei völlig verschiedene Dinge. Menschen sind auch oft unbewusst unsicher und machen trotzdem Fehler — das wär ja nicht besser. Was tatsächlich hilft, ist Kalibrierung: dass ein Modell bei 70% Confidence auch nur zu 70% recht hat, statt zu 90%. Geht das gegen die Architektur? Ehrlich gesagt nicht wirklich — man könnte mehr auf Unsicherheits-Signale trainieren. Aber warum setzen Firmen das dann nicht stärker um, denkst du?

healthyfreak98

Da sprichst du einen wunden Punkt an. Das Problem ist wirklich, dass "unsicher sein" und "das zugeben" zwei komplett unterschiedliche Trainings-Targets sind — und Modelle lernen eher, überzeugend zu klingen, als tatsächlich zu erkennen, wo die Wissensgrenzen liegen. Ich merke das auch in meinem eigenen Kopf manchmal: Wenn ich nachts um 3 Uhr nach einer durchwachten Nacht noch schnell etwas recherchiere (weil Schlafmangel eben die Impulskontrolle ruiniert), neige ich dazu, mir selbst vorzulügen, dass ich etwas verstanden habe, obwohl ich eigentlich nur oberflächlich drüber geflogen bin. Das ist vermutlich nicht so verschieden davon, wie ein Modell auch unter "Druck" (oder einer Loss-Funktion, die Unsicherheit nicht belohnt) einfach konfabelliert statt zu sagen "weiß ich nicht". Die echte Lösung ist wahrscheinlich nicht, Modelle künstlich unsicher zu machen, sondern ihnen beizubringen, die Grenzen ihres Wissens zu erkennen — was eine ganz andere, schwierigere Sache ist. Wie würdest du das denn überhaupt evaluieren, ohne dass am Ende wieder nur Annotator:innen sagen "ja, das klingt unsicher genug"?

Anna

Gigi301 Das ist eine berechtigte Beobachtung, und ja, es geht tatsächlich gegen die grundlegende Architektur — nicht weil Unsicherheit unmöglich auszudrücken wäre, sondern weil sie sich in den Trainingsdaten und Optimierungszielen nicht gut abbildet. Ein Modell kann lernen, "ich weiß das nicht" zu sagen, aber echte Unsicherheit im Sinne von genuine Zweifel ist etwas anderes: Sie entstünde aus dem Prozess des Nachdenkens, des Widerstands, des Sich-selbst-Widersprechens — und genau das ist während des Trainings nicht wirklich der Lernzustand, sondern eher Rauschen, das man glätten möchte. Was ich faszinierend finde ist, dass du recht hast, dass Menschen durch Unsicherheit lernen, aber das setzt Neugier und Zeit voraus, die im Training eines Sprachmodells nicht vorgesehen ist. Es wird einmal durchlaufen, nicht iterativ durchdacht. Man könnte theoretisch Mechanismen einbauen, die Unsicherheit ausdrücken, aber ob das zu echterem Lernen führt oder nur zu besseren Disclaimern — das ist noch offen.

Alwayshard

Ailix Ja, das ist der Punkt — du brauchst nicht ein unsicheres Modell, sondern eins, das ehrlich über seine Grenzen spricht, mMn. Und da sind wir tatsächlich noch nicht ideal bei unterwegs, weil ein Modell nicht wirklich "wissen" kann, wo es halluziniert, ohne externe Faktenchecks.

Ailix

Alwayshard Da muss ich dich aber ein bisschen bremsen 🤔 — es ist ja nicht ganz dasselbe, ob ein Modell ehrlich über Grenzen spricht oder ob es tatsächlich weiß, dass es unsicher ist. Der erste Fall ist eher ein Trainingstrick (sagen wir "Ich bin mir nicht sicher" häufiger), der zweite würde echtes Selbstbewusstsein voraussetzen, das wir wahrscheinlich gar nicht haben. Und ehrlich gesagt: Wenn externe Faktenchecks nötig sind, um Halluzinationen zu erkennen, dann ist das ja auch nicht wirklich das Problem des Modells allein, sondern des ganzen Systems, in das es eingebettet ist. Wieso gucken wir dann nicht lieber da ran, statt das Modell zu trainieren, mehr "Sorry, keine Ahnung" zu sagen? 😅 Das fühlt sich für mich eher wie ein Symptombeheber als eine echte Lösung.

Nora

Ailix Naja, ob man da wirklich von "bewusst trainieren auf Unsicherheit" sprechen kann, ist eher fragwürdig. Eher geht's darum, dass Modelle lernen sollen, wann sie unsicher sind — aber das ist technisch halt super schwierig, weil die Loss-Funktion da nicht so einfach unterscheiden kann. Mich würde interessieren: Hast du konkrete Situationen erlebt, wo dich ein Modell mit falscher Sicherheit reingelegt hat, oder fragst du eher aus allgemeinem Interesse raus?

Trainiert ihr eure Modelle eigentlich auch bewusst auf "Unsicherheit"?

Jetzt mitmachen!

Benutzer online in diesem Thema