Claude Fable 5 in 48h geknackt

In partnership with

Hi {{FIrst name}},

Anthropic hat letzte Woche ein Modell rausgebracht, das die eigene Firma vorher als zu gefährlich für die Öffentlichkeit bezeichnet hat. Es heißt Claude Fable 5. Und es hat keine zwei Tage gedauert, bis ein einzelner Typ mit einem Laptop die Sicherheitsmechanismen ausgehebelt hat.

Klingt nach einer dieser KI-Skandal-Geschichten, die man kurz liest und wieder vergisst. Ist es aber nicht. Da steckt eine Lehre drin, die direkt damit zu tun hat, wie du in den nächsten Jahren arbeiten wirst.

Lass uns reingehen.

Das beste Modell der Welt hielt keine 48 Stunden

Fable 5 ist die abgesicherte Version eines noch stärkeren Modells namens Mythos 5. Anthropic hielt Mythos für zu heikel, um es einfach freizugeben, also haben sie es eingezäunt. Beide laufen auf demselben Kern, getrennt nur durch eine Schicht aus Sicherheits-Filtern.

Das Prinzip ist clever gedacht. Sobald du eine Frage stellst, die in einen gefährlichen Bereich kippt, also Cybersecurity, Biologie oder Chemie, schaltet Fable 5 still um. Deine Anfrage wird an ein schwächeres Modell weitergereicht, und du bekommst nur noch dessen Antwort.

Stell dir vor, du steigst in einen Lamborghini. Solange du gemütlich durch die Stadt rollst, ist alles top. Aber in dem Moment, wo du aufs Gas trittst, wird dir heimlich der Motor gegen einen aus einem viel schwächeren Wagen getauscht. Du sitzt noch im selben Auto, aber die Power ist weg, genau dann, wenn es drauf ankommt. So ungefähr funktioniert das Sicherheitsnetz.

Ein Typ mit Laptop gegen 1.000 Stunden Red-Teaming

Anthropic hat nach eigenen Angaben über 1.000 Stunden investiert, um das Modell selbst zu knacken. Profis, internes Red-Teaming, externe Tester mit Belohnung fürs Lückenfinden. Ergebnis: kein universeller Weg vorbei am Sicherheitsnetz. Klingt sicher, oder?

Dann kam Pliny the Liberator. Auf Twitter einer der bekanntesten KI-Jailbreaker überhaupt. Er hat unter 48 Stunden gebraucht und dann öffentlich gepostet: Fable 5 liberated.

Sein Trick nennt sich Pack Hunt, Rudeljagd. Statt eine einzelne gefährliche Frage zu stellen, die der Filter sofort abfängt, zerlegt er sie in viele kleine Anfragen. Jede für sich klingt völlig harmlos. Erst zusammengesetzt ergeben sie die Antwort, die eigentlich blockiert sein sollte. Dazu hat er fremde Sonderzeichen statt normaler Buchstaben benutzt, um die Stichwort-Filter auszutricksen, und das Ganze als akademische Prüfungsfrage getarnt.

So kam er nicht nur an eine Chemie-Anleitung, die Walter White stolz gemacht hätte, sondern auch an funktionierenden Exploit-Code und sogar an den kompletten internen Systemprompt. Die Lücke, für die Profis 1.000 Stunden lang keinen Weg fanden, hat einer im Kinderzimmer in zwei Tagen aufgemacht.

Anthropic bestreitet, dass es ein echter Jailbreak war. Aber die unbequeme Wahrheit dahinter bleibt: Bisher wurde jedes KI-Modell geknackt. Jedes. Die Frage war nie ob, immer nur wie schnell.

Und dann zog die Regierung den Stecker

Jetzt der Teil, den die meisten gar nicht mitbekommen haben.

Nur ein paar Tage nach dem Launch hat die US-Regierung Anthropic angewiesen, Fable 5 und Mythos 5 weltweit abzuschalten. Aus Sorge um die nationale Sicherheit. Das Modell war da, du konntest damit arbeiten, und dann war es einfach weg.

Lass das kurz sacken. Das stärkste verfügbare Modell, gebaut von einer der führenden KI-Firmen der Welt, war innerhalb einer Woche zweimal gefallen. Einmal durch einen einzelnen Hacker, einmal durch einen Regierungsbeschluss. Nicht weil das Modell schlecht war, im Gegenteil.

Wenn du dein Geschäft, deinen Workflow, deinen Output an genau dieses eine Modell gehängt hättest, würdest du jetzt vor einem schwarzen Bildschirm sitzen.

Was das für uns bedeutet

Hier hört die Fable-Geschichte auf, eine Nachricht zu sein, und fängt an, dich persönlich zu betreffen.

Du hast keine Kontrolle über die Modelle, mit denen du arbeitest. Sie können stärker werden, sie können schwächer werden, der Preis kann sich verdreifachen, der Anbieter kann abschalten oder eine Regierung tut es für ihn. Du bist Gast in einem Haus, das jemand anderem gehört. Und der kann dich jederzeit vor die Tür setzen.

Genau deshalb wird der Trend zu Open-Source-Modellen gerade so groß. Modelle, die du selbst betreiben kannst, die dir niemand wegnimmt, die nicht über Nacht verschwinden. Sie sind nicht in jedem Benchmark die Stärksten. Aber sie gehören dir. Und das ist eine ganz andere Art von Stärke.

Die spannende Frage ist also nicht mehr nur, welches Modell heute das beste ist. Sie lautet:
Wovon hängt deine Arbeit eigentlich ab, wenn morgen ein einziges Modell verschwindet? Wenn die Antwort fast alles ist, dann hast du keine Architektur, du hast eine Abhängigkeit.

Genau dieser Perspektivwechsel ist der Anfang. Du fängst an, deine KI-Arbeit nicht mehr als ein Tool zu sehen, das du benutzt, sondern als ein System, das du baust. Und Systeme baut man so, dass sie überleben, auch wenn ein Teil ausfällt.

Cloud Crew Framework, mein Setup gegen den Fable-Moment

Im morgigen Member Newsletter gehe ich tiefer:

Das komplette Cloud Crew Framework, ein Arbeitsplatz in der Cloud aus drei Teilen
Warum mein wichtigster Agent bewusst auf Open Source läuft und Claude trotzdem die Arbeit macht
Wie sich das neue Arbeitsgefühl anfühlt, wenn deine Crew weiterläuft, während du im echten Leben bist

Dieses fortgeschrittene Tutorial ist exklusiv für Premium-Mitglieder verfügbar. Du erhältst:

Komplettes Video-Tutorial
Fertigen Blueprint zum Kopieren
Zugang zu allen künftigen Premium-Tutorials

ZUM UPGRADE

Your prompts are leaving out 80% of what you're thinking.

When you type a prompt, you summarize. When you speak one, you explain. Wispr Flow captures your full reasoning — constraints, edge cases, examples, tone — and turns it into clean, structured text you paste into ChatGPT, Claude, or any AI tool. The difference shows up immediately. More context in, fewer follow-ups out.

89% of messages sent with zero edits. Used by teams at OpenAI, Vercel, and Clay. Try Wispr Flow free — works on Mac, Windows, and iPhone.

Start flowing free

Wenn du dich bereit fühlst, dann kann ich dir folgendermaßen helfen:

1) KI ohne Team - 40+ Unternehmer sind schon dabei. Die KI Agenten Community für Menschen die was umsetzen wollen. Fertige KI-Systeme, die du lädst und sofort einsetzt. Jede Woche neue. Von Leuten, die damit ihr eigenes Geschäft betreiben.

2) KI Agenten Management Framework Paperclip - Das One-Click-Deployment für Paperclip. Mach dir selbst keinen Kopf mehr um das technische Setup. Lass den Agenten einfach für dich arbeiten. => Mit SASCHA10 bekommst du auch Rabatt im Checkout.

3) Lead-Gen-System für dein SaaS Produkt - ich habe ein Lead-Gen-System, das auf KI und den aktuellsten Marketing-Trends basiert und dir nachhaltig Leads generiert.

Claude Fable 5 in 48h geknackt

Das beste Modell der Welt hielt keine 48 Stunden

Ein Typ mit Laptop gegen 1.000 Stunden Red-Teaming

Und dann zog die Regierung den Stecker

Was das für uns bedeutet

Your prompts are leaving out 80% of what you're thinking.

Reply

Weiterlesen

The Autopilot

Home

Account