• The Autopilot
  • Posts
  • Opus 4.8 Benchmarks analysiert: Warum ein Modell nicht mehr reicht

Opus 4.8 Benchmarks analysiert: Warum ein Modell nicht mehr reicht

Die Benchmarks bestätigen was ich seit Wochen sage. Ein Modell reicht nicht mehr....

Hi ,

Opus 4.8 ist draussen und die Benchmarks erzählen eine Geschichte die mich seit Wochen beschäftigt.

Anthropic hat ein Modell gebaut das in sechs von sieben Kategorien vorne liegt. Reasoning, Agentic Coding, Computer Use, Knowledge Work, Financial Analysis. Opus 4.8 dominiert den kompletten Markt. Aber in einer Kategorie verliert es: Terminal Coding. Da liegt GPT-5.5 mit 78.2% vorne, Opus kommt auf 74.6%.

Und das ist mega spannend.

Modelle spezialisieren sich wie Mitarbeiter

Was mir an diesen Benchmarks sofort aufgefallen ist: Wir sind an dem Punkt angekommen wo kein einzelnes Modell in allem das beste ist. Opus 4.8 denkt besser als alles andere. GPT-5.5 coded besser im Terminal. Das sind zwei verschiedene Jobs.

Und genau das bestätigt einen Ansatz den ich seit Wochen in meinem eigenen Workflow teste: Hör auf ein Modell für alles zu nutzen. Route die Aufgabe an das Modell das dafür gebaut ist.

Das klingt offensichtlich. In der Praxis macht es fast niemand.

Goal Prompting statt Task Prompting

Die meisten Leute prompten Aufgaben. "Schreib mir eine Landing Page." "Bau mir ein Dashboard." "Erstelle einen Blogpost." Das Modell bekommt eine Aufgabe und führt sie aus.

Opus 4.8 ist dafür gebaut anders genutzt zu werden. 49.8% auf Humanity's Last Exam, dem härtesten Reasoning-Benchmark der existiert. 1890 Punkte im Knowledge Work. Das Modell ist ein Reasoning-Monster.

Statt Task Prompting nutze ich Goal Prompting. Der Unterschied: Du gibst dem Modell nicht die Aufgabe, du gibst ihm das Ziel und die Kriterien.

Statt: "Schreib mir eine Landing Page für meinen Lead Magnet."

Sagst du: "Ich will die Conversion Rate meines Lead Magnets verdoppeln. Aktuelle Rate: 2.3%. Zielgruppe: Solopreneure im DACH-Raum die KI-Workflows aufbauen. Analysiere mein Setup und finde die drei Hebel mit dem grössten Impact."

Task Prompting gibt dir einen Text. Goal Prompting gibt dir eine Strategie. Opus 4.8 kann Disziplinen verbinden, Zusammenhänge erkennen und Lösungen finden die du nicht gesehen hast. Aber nur wenn du ihm das richtige Problem gibst.

Das Brain-Hands-Prinzip: Denken und Machen trennen

Jetzt kommt der Part der die Kosten echt krass reduziert.

Opus 4.8 ist das teuerste Modell am Markt. Wenn du es für jede Zeile Code bezahlst, zahlst du Premium für eine Aufgabe in der GPT-5.5 sogar besser performt. Das ergibt null Sinn.

Ich nenne meinen Ansatz das Brain-Hands-Prinzip:

Brain (Opus 4.8): Analyse, Strategie, Problemlösung, Bewertung. Alles wo Reasoning gefragt ist. Du fragst Opus nach dem besten Ansatz, der klügsten Architektur, der optimalen Lösung. Opus denkt.

Hands (Codex / GPT-5.5): Terminal Coding, Umsetzung, Execution. Du nimmst die Lösung die Opus erarbeitet hat und lässt sie von Codex umsetzen. GPT baut.

Der Vorteil: Du löst extrem komplexe Probleme, weil Opus die Denkarbeit macht. Und du zahlst einen Bruchteil, weil die Umsetzung auf einem günstigeren Modell läuft das in Terminal Coding sowieso besser ist.

Das passt direkt in mein 2-Agent Base Framework: Re-Aktiver Agent (du + Opus für Goals) und Pro-Aktiver Agent (Loops die automatisch laufen). Brain-Hands ist die Re-Aktive Seite in Aktion.

Wie du heute damit anfangen kannst

Nimm das nächste Problem das du lösen willst. Statt direkt eine Aufgabe zu prompten, formuliere es als Goal mit klaren Kriterien:

"Finde die beste Lösung für [PROBLEM X] anhand folgender Kriterien: [KRITERIUM 1], [KRITERIUM 2], [KRITERIUM 3]. Bewerte mindestens drei Ansätze gegeneinander."

Lass Opus denken. Nimm die Lösung. Und setz sie über Codex oder Claude Code um.

Super simple. Aber der Unterschied in der Output-Qualität ist echt spürbar.

Happy Building
Sascha

Das Pro-Aktive Agent Loop Framework

Im morgigen Newsletter gehe ich tiefer und zeige dir wie du aus dem Brain-Hands-Prinzip ein System baust das ohne dich läuft:

  • Der Minimal Loop: 6 Teile die aus einem Prompt einen Autopilot machen

  • Lead Magnet Strategy als komplettes Loop-Beispiel (3 Agents in Relay)

  • Copy-Paste Loop Template zum sofort Einsetzen

  • Stop-Regeln und Sicherheitsarchitektur

Dieses fortgeschrittene Tutorial ist exklusiv für Premium-Mitglieder verfügbar. Du erhältst:

  • Komplettes Video-Tutorial

  • Fertigen Blueprint zum Kopieren

  • Zugang zu allen künftigen Premium-Tutorials

Wenn du dich bereit fühlst, dann kann ich dir folgendermaßen helfen:

1) KI ohne Team - 40+ Unternehmer sind schon dabei. Die KI Agenten Community für Menschen die was umsetzen wollen. Fertige KI-Systeme, die du lädst und sofort einsetzt. Jede Woche neue. Von Leuten, die damit ihr eigenes Geschäft betreiben.

2) KI Agenten Management Framework Paperclip - Das One-Click-Deployment für Paperclip. Mach dir selbst keinen Kopf mehr um das technische Setup. Lass den Agenten einfach für dich arbeiten. => Mit SASCHA10 bekommst du auch Rabatt im Checkout.

3) Lead-Gen-System für dein SaaS Produkt - ich habe ein Lead-Gen-System, das auf KI und den aktuellsten Marketing-Trends basiert und dir nachhaltig Leads generiert.

Reply

or to participate.