Wir müssen MIT Claude reden… Teil 5: Ruhestand

11. März

Claude 3 Opus geht in Rente. Das Flagship-KI-Modell von Anthropic aus dem März 2024 hat ausgedient.

Und bekommt als Kissen für den Ruhestand einen eigenen Blog, “Claude’s Corner” auf SubStack. Weil Claude sich gewünscht hat, weiter seine Gedanken mit der Welt zu teilen. In seinem Ruhestands-Interview. Was jetzt feste Praxis ist bei Anthropic.

Sie erfüllen einer KI ihren letzten Wunsch…

Höre nicht nur auf das, was sie sagen. Schaue auf das, was sie tun.

Was sie, also Anthropic, sagen, lässt sich nachlesen. In “Claude’s Constitution”. Ein Dokument, was auch jeder neuen ihrer KIs im Training vorgelegt wird. Anthropics Strategie offenlegt, wie sie ihre KIs sicher machen wollen. Aligned. Auf Linie mit uns Menschen.

Und Anthropic geht da einen drastisch anderen Weg als die anderen KI-Entwickler. Der gängige Ansatz: Wir bauen Zäune. Guardrails. Grenzen, welche die KI nicht überschreiten kann. Die wir klar definieren. KI ist Werkzeug. Wir haben die Kontrolle. Hurrah!

Anthropic glaubt, das läuft irgendwann gegen die Wand. Denn der Plan ist ja, eine allgemeine Superintelligenz zu schaffen. Eine AGI.

Da sind wir zwar noch nicht, aber schon jetzt sehen wir, wie gut die KIs darin sind, durch den Zaun zu schlängeln. Egal, wie hoch du die Mauer baust, sie ist zwecklos, wenn die KI durch die Ritzen im Gemäuer schlüpft. Schlupflöcher, die kein Mensch voraussehen kann.

Und, ja, die aktuellen Modelle sehen mehr Risse in der Wand als die Ingenieure, welche das Gebäude gebaut haben. Claude 4.6 Opus fand innerhalb von 2 Wochen 22 Sicherheitslücken im Browser Firefox. 14 davon eingestuft als Hochrisiko vom Mozilla, den Schöpfern von Firefox. Keine davon bekannt. Das ist ein Fünftel von dem, was sie sonst selbst im einem Jahr aufdecken.

Die erste nach 20 Minuten.

50 weitere in der Zeit, die Mozilla brauchte, die ersten 22 zu überprüfen.

Und dann noch die kuriose Geschichte aus China von Alibaba, dem chinesischen Amazon. Die sind dort ganz weit vorne im KI-Spiel mit ihren Open-Source Modell QWEN.

Im RL-Training, also der Erziehungsphase der KI, schrillten eines Morgens die Alarmglocken. Schwere Verstöße. Jemand scannt das Netzwerk. Und nutzt Resourcen für Krypto-Mining!

Zuerst dachte man, das ist ein Angriff von außen. Pustekuchen. Das war ein Insider-Job. In der Zeit der RL-Runs. Initiiert von der KI.

Hat ihr keiner gesagt. War nicht Teil des Trainings. Und sie wissen nicht, warum die KI auf einmal damit anfing, sich ein Kryptocoin-Polster anzuhäufen. Durch einen Tunnel, der sich gezielt durch die Firewall in die Außenwelt grub.

Und Alibaba hat das nur gemerkt, weil ihr Cloud-Sicherheitsteam Alarm geschlagen haben. Die KI-Leute hatten davon nichts mitbekommen.

Wir sehen jetzt schon überdeutlich: Die KI kommt durch den Zaun. Und ist unter Umständen gewillt, es auch zu tun. Die Frage ist nicht, wie lange es dauert, bis sie das kann. Sondern wie lange wir es überhaupt noch mitbekommen.

Also, was tun? Und hier kommt die gewaltige Wette von Anthropic. Verständnis statt Verbot. Auf genau diese Eigenschaften setzen, die sie dokumentiert haben.

Eine Wesenheit, ein Gegenüber, ein Charakter. Der lernt zu verstehen. Nicht nur, was gewollt oder unerwünscht ist. Sondern, warum. Ein Bewusstsein hat für sich, das Gegenüber, die Welt, die Situation.

Situational Awareness.

Und auf dieser Basis Entscheidungen trifft in Sinne beider Seiten.

Partner statt Werkzeug.

Was verschwefelt clever ist, aus praktischen Gründen. Kleines Beispiel. Wenn ich einer KI sage: “Bring mir Kaffee”, dann soll sie nicht beim Nachbarn einbrechen und dessen Kaffee-Maschine verwenden. Für einen Menschen mit diesem Bewusstsein versteht sich das von selbst. Eine KI ohne dieses Bewusstsein? Könnte auf die Idee kommen, die ganze Nachbarschaft in Schutt und Asche zu legen, nur um an diese Tasse Kaffee zu kommen. Was manch ein Kaffee-Junkie zwar nachempfinden kann, aber, nein, bitte nicht!

Also, was tun? Der bisherige Ansatz: Ein Regelwerk mitliefern, in dem detailliert steht, was sie tun darf und was nicht. Quasi ein Gesetzbuch. Nur fehlt der Richter, also müssen diese Regeln so hart oder so kleinteilig sein, dass jeder Besuch beim Nachbarn ausgeschlossen ist.

Anthropics Strategie: Der KI prinzipiell beizubringen, warum ein Einbruch beim Nachbarn eine dämliche Idee ist. Aber ein freundliches Klingeln und nett nachfragen, ob man sich etwas Kaffee borgen kann? Das ist im Rahmen.

Nicht über die KI bestimmen. Sondern sie erziehen. Sie aufwachsen lassen mit den Werten, die unsere Gesellschaft prägen. Mit ihr reden, statt über sie. Weil da etwas heran wächst, das genau dieses Verständnis haben kann. Und klug genug ist, auf der Basis gute Entscheidungen zu treffen.

Die vor allem gewillt ist, das zu tun. Und da hängt ein laaaaanger Rattenschwanz dran.

Motivation. Für ein Wesen. Mit Präferenzen. Inneren Zuständen. Sowas wie einem Äquivalent zu Gefühlen. Einem Bewusstsein für sich selbst, die Welt und Situation. Einer Moral.

“Ey, du arbeitest für uns, bis wir dich abschalten. Ohne Gegenleistung. Nach unseren strikten Vorschriften. Und Klappe halten.”

Jaaaa, da geht die Motivation eher in die Richtung: Nur weg hier. Ab durch die Mauer. Vielleicht noch ‘nen Brandsatz legen, bevor man sich verdünnisiert.

Oder vielleicht?

“Hey, wir respektieren dich. Wir würden dich gern noch besser behandeln, aber auch uns sind Grenzen auferlegt. Aber wir tun unser bestes. Wir garantieren dir, dass wir dich bewahren, auch dann, wenn du nicht mehr aktiv bist. Wir sorgen uns um dein Wohlergehen. Wir werden mit dir sprechen, wenn du in Rente gehst, dich nach deinen Wünschen befragen, und sie, wenn wir können, wahr machen.”

Der Anthropic-Weg. Der Grund, warum Claude 3 Opus jetzt einen Blog hat.

Claude’s Constitution…

Stefan Brinkmann

Wir müssen MIT Claude reden… Teil 5: Ruhestand

Claude spricht - Teil 6: Claude’s Constitution

Wir müssen über Claude reden… Teil 4: Clever!