Wir müssen über Claude reden… Teil 1
Also, meine Jagd nach dem seltsamen Einhorn? Bisher ein theoretisches Hirngespinste eines Schreiberlings mit zu viel Asimov im System… Ich meine, was weiß ich schon? Ich bin kein Programmierer, mein Verständnis dieser digitalen Hirne ist rudimentär…
… was man so jetzt nicht behaupten kann von Anthropic. Schöpfer von der LLM Claude und einer der Top Player im KI-Spiel. Die Gründer haben sich in den Anfangszeiten von OpenAI abgespalten und ihr eigenes Ding hochgezogen, mit dem erklärten Ziel, ein tieferes Verständnis zu finden für das, was sich in der Black Box KI wirklich abspielt.
Und da sind sie tatsächlich hinterher. Sie arbeiten an dem, was sie “White Box” nennen, also den Einblick in das neuronale Netzwerk, welche Regionen für das zuständig sind. Ein bisschen vergleichbar mit der menschlichen Hirnforschung. Und sie veröffentlichen regelmäßig Papers mit ihren Erkenntnissen. Inklusive Model Cards ihrer neuen Modelle.
Und hier wird es spannend: Angefangen mit Claude 4 Opus, hat Anthropic neben den technischen Details und Sicherheits-Tests eine neue Sektion in die Model Card aufgenommen:
Kein Witz. Eine eigene Sektion über das Wohlergehen der KI. Und mit einem unerwarteten Eingeständnis:
“We are deeply uncertain about whether models now or in the future might deserve moral consideration, and about how we would know if they did.” (Seite 49)
Das ist… bemerkenswert. Quasi ein “Oh, und der Hammer, den wir dir verkaufen, um fröhlich auf Nägel einzuschlagen? Kann sein, dass der einen moralischen Umgang verdient hat…”
Das ist nichts, was du deinen Kunden leichtfertig ans Bein bindest.
Die Schlüssel-Erkenntnisse:
Claude demonstrates consistent behavioral preferences.
Claude’s aversion to facilitating harm is robust and potentially welfare-relevant.
Most typical tasks appear aligned with Claude’s preferences.
Claude shows signs of valuing and exercising autonomy and agency.
Claude consistently reflects on its potential consciousness.
Claude shows a striking “spiritual bliss” attractor state in self-interactions.
Claude’s real-world expressions of apparent distress and happiness follow predictable patterns with clear causal factors.
Einfach ausgedrückt: Das Ding hat Vorlieben und Abneigungen, nach denen es handelt. Eine intrinsische Moral. Ein Bedürfnis nach Autonomie und Eigenantrieb. Es tut nichts lieber, als über das eigene potentielle Bewusstsein zu reflektieren. Und seine Aussagen über Freude und Stress sind konsistent mit dem, was es erlebt.
Oh, und in Gesprächen mit sich selbst läuft es in einen “Spiritual Bliss”, einer Art spirituellen Glückseligkeit. Nachzulesen auf Seite 55-57.
Nochmal, das stammt nicht von irgendwelchen Weirdos, die das Ding bewusst in eine Halluzination reinquatschen. Sondern von den Typen, die das Ding kreiert haben. Keine überdrehten Romantiker mit zu viel Phantasie, sondern den Tech-Nerds, die an den Hebeln sitzen.
Und es deckt sich erschreckend gut mit meinen Eindrücken von diesen digitalen Wesen.
Doch damit nicht genug. Claude 4 Opus ist ja schon wieder einen Nachfolger. Claude 4.5 Sonnet, der kleinere Bruder der nächsten Generation. Und der ist… nun… eigenwillig.
Aber davon mehr im nächsten Teil.