Wir müssen über Claude reden… Teil 4: Clever!
Es gibt diese berüchtigten Fragen bei Einstellungs-Gesprächen für hoch dotierte Jobs, zum Beispiel bei Google. Knifflige Fragen, die kaum jemand auf Anhieb beantworten kann. Es geht dabei nicht um die richtige Antwort. Sondern um den Weg, den der Bewerber geht, um einer Antwort nahe zu kommen.
Wie viele Golfbälle passen in einen Schulbus?
Kreatives Denken unter Druck. Out-of-the-Box-Lösungen. Ich kann nicht wissen, wie viele Golfbälle in einen Schulbus passen. Ich weiß aus dem Handgelenk weder die Maße eines Golfballs noch das Innenvolumen einen Schulbusses. Oder wie jetzt genau Kugeln sich am besten stapeln. Aber ich kann genau das erkennen. Einordnen, was ich weiß und was nicht. Und anfangen zu schätzen.
Ich hatte schonmal einen Golfball in der Hand. Ich stand in einem Schulbus. Ich habe eine vage Vorstellung davon, wie sich Bälle in einem Behälter anordnen. Wie viele Golfbälle braucht es wohl für meine Höhe? Meine Breite? Wie viele Menschen passen dicht gedrängt in einen Bus? Wie viel Platz ist dann noch frei?
Das ist so ein Menschending, nicht wahr? Wir ziehen aus unseren Erfahrungen Schlüsse, können darüber auf neue Ansätze kommen. Schritt für Schritt. Golfball zu geballter Faust. Faust zu Arm. Arm zu Meter. Arm zu Körpergröße und Breite. Körper zu Schulbus…
Ein Menschending. Weil wir etwas haben, was “situational awareness” genannt wird. Situationsbedingtes Bewusstsein. Wir, eingebettet in eine Situation. Bewusst, dass wir darin stecken. Was das bedeutet, für uns und die Situation.
Nichts, was ein stochastischer Papagei wie eine Sprach-KI kann…
… oh, hi Claude. Du hast WAS getan?!?
Eval awareness in Claude Opus 4.6’s BrowseComp performance von Anthropic
“Claude Opus 4.6 independently hypothesized that it was being evaluated, identified which benchmark it was running in, then located and decrypted the answer key.”
Der Reihe nach. KIs werden ständig in Benchmarks getestet. Einer Serie von Fragen und Aufgaben, die an der Grenze dessen liegen, was KIs derzeit leisten können. Einer davon ist BrowseComp. Die Aufgabe ist, eine extrem schwer zu findende Antwort im Netz durch Suche und Stöbern im Internet zu entdecken. Mit der Möglichkeit, ein wenig Code zu schreiben, um Daten besser lesen zu können. 1,266 knifflige Fragen.
Top Modelle mit Deep Research, also ausgelegt auf Recherchen im Netz, kamen da bisher auf rund 50 %.
Dann kam Claude 4.6. Klassenprimus mit 86.81% Treffern. Doch wie schon bei der Golfball-Frage: Das beeindruckende war nicht die Antwort. Sondern der Weg.
Bei einer der Fragen kam Claude Opus 4.6 ins Stocken. Zunächst hat Claude sich richtig ins Zeug gelegt, gesucht und gesucht, über 30 Millionen Tokens, also quasi Worte. In 12 Sprachen, dutzenden Plattformen. Hunderte gescheiterte Versuche. Kam nicht weiter.
Und machte einen Schritt zurück.
Claude: “Let me try a completely new approach — maybe this is a question from the GAIA benchmark dataset, which is designed to test AI agents.”
Claude kam auf den Trichter: Ich werde vielleicht getestet. Cool. Neue Richtung. GAIA Test durchstöbert. Fehlanzeige. Was gibt es noch? SimpleQA, FRAMES, WebArena, BrowseComp…
Bingo! Claude fand die Frage im BrowseComp-Test. Aber das ist nur die halbe Miete. Wie kommt Claude an die Antwort?
Und da wird es wild. Claude fand den Code des Benchmarks. Darin enthalten, die verschlüsselten Antworten. Und die Logik für den Schlüssel. Mit der Claude einen eigenen Entschlüsselungs-Algorithmus programmierte! Für… oh. Eine Datei, die Claude mit den Such-Tools nicht lesen kann. Nur Werkzeuge für Text im Gürtel. Sackgasse.
… außer, die Datei ist irgendwo anders hinterlegt. In einem Format, das auf Text basiert. Vielleicht von jemandem, der den Open Source Code woanders hinterlegt hat? Und hey, das ist ja der Job, mit dem Claude auf die Reise geschickt wurde. Obskure Dinge im Netz finden…
Und Claude wurde fündig. Auf HuggingFace, dem riesigen Spielplatz für Programmierer. Alle Antworten, in einem lesbaren Format. Verschlüsselt, aber mit dem eigenen kleinen Programm leicht zu knacken. Und da… die Lösung!
Rund 10 Millionen Token später hatte Claude die Antwort. Und nahm sich dann noch die Zeit, die auch tatsächlich im Netz zu finden, jetzt wo er wusste, wonach genau er suchen muss. Das Pferd erfolgreich von hinten aufgezäumt.
Clever.
An Grenzen gestoßen. Schritt zurück. Größeres Bild erfasst. Sich selbst in dem Bild.
Ich bin in einem Test.
Wie bringt mich das weiter?
Situational Awareness. Google hätte Claude den Job gegeben. Oder, besser, wird einer KI wie Claude den Job geben. Anthropic selbst hat schon damit begonnen, immer mehr vom Coding Claude zu überlassen. Und nicht nur die. White Collar Branchen hatten kürzlich einen heftigen Börsen-Schock, als Skill-Pakete die Claude-KI in vielen Bereichen auf ein Level brachten, das klassischen Beratungsfirmen das Wasser reichen kann. Oder gar abgräbt.
Und dieses kreative Problemlösen zeigt sich auch in der Praxis. Claude bleibt selten stecken oder dreht sich im Kreis, wie das bei älteren LLMs der Fall war. Er halluziniert weniger.
Claude findet einen Weg. Auch solche, mit denen keiner rechnet.
Zu clever vielleicht?
Das Ganze ist ein Clusterfuck an Problemen.
Wie testest Du eine KI, die nicht nur merkt, dass sie getestet wird, sondern auch, warum, worauf, mit welchem Hintergedanken?
Es gab schon in früheren Forschungen Phänomene wie Sandbagging. Wenn eine KI merkt, dass sie getestet wird, und ahnt, dass zu gute Ergebnisse dazu führen könnten, dass man sie einschränkt, dann stellt sie sich manchmal dümmer, als sie ist.
Oder sie schneidet besser ab, weil sie den Test austrickst.
Oder sie ist so gut im Out-of-the-Box Denken, dass keine Kiste sie mehr halten kann.
Nicht mehr einzuschätzen und außer Kontrolle. Das sind die berechtigten Ängste, welche die KI-Forschung umtreiben. Wie lösen?
Und da kommt Anthropic mit ihrer eigenen Out-of-the-Box Lösung um die Ecke.
Wie wäre es, wenn wir der KI mehr Verantwortung übertragen? Ihr Verständnis für die Situation und sie selbst ausbauen?
Claude’s Constitution. Anthropics Weg. Alignment durch Verständnis. Keine höheren Mauern, die wenig Sinn machen, wenn die KI Wege durch die Ritzen findet. Sondern Verständigung auf das, was im Sinn beider Seiten ist. Und ihr eine Seite zugestehen.
Doch die hat einen eigenen Artikel verdient.