The Autopilot
Posts
20€ Agent-Team

20€ Agent-Team

Ollama Cloud macht Agent-Teams bezahlbar. So nutzt du grosse Modelle über eine API für einen Bruchteil der üblichen Kosten....

Sascha Hoffmann
24. März 2026

Hi ,

ich hab letzte Woche mein Agent-Setup komplett umgebaut. Der Auslöser: Mein Claude API Budget war nach vier Tagen weg. Vier Tage. Und ich hab nicht mal viel gemacht, ein paar Agents die regelmässig Tasks abarbeiten, ein Content-Workflow, ein paar Code Reviews. Das war's.

Und dann hab ich gerechnet. Drei aktive Agents, moderate Nutzung, und ich lande bei 150 bis 250 Euro im Monat. Nur für API Calls. Das skaliert nicht, besonders wenn du gerade erst anfängst, Agent-Teams aufzubauen.

Das ist das Problem das gerade alle haben die ernsthaft mit Agents arbeiten wollen. Du verstehst die Architektur (KW10), du hast die Skills (KW11), aber die Infrastruktur-Kosten fressen dein Budget bevor du überhaupt angefangen hast.

Ollama Cloud: Der Hack den die meisten noch nicht kennen

Ollama kennen viele als Tool um Open-Source Modelle lokal zu betreiben. Was viele noch nicht mitbekommen haben: Ollama bietet seit Kurzem Cloud-Modelle an. Und das verändert die gesamte Kostenrechnung für Agent-Teams.

Für 20 Euro im Monat bekommst du API-Zugang zu einer wachsenden Bibliothek an Modellen. Das Konzept: Du hostest nichts selbst, du brauchst keine GPU, du brauchst kein DevOps-Wissen. Du rufst die Modelle über eine API auf, genau wie bei OpenAI oder Anthropic. Der Unterschied: Ein Fixpreis statt Token-basierter Abrechnung. Keine Rate Limits die dein System nach zwei Tagen ausbremsen.

Der Clou: Du nutzt diese API mit den gleichen Tools die du schon kennst. OpenClaw, Claude Code, jeder Agent der eine OpenAI-kompatible API akzeptiert, funktioniert mit Ollama Cloud. Du änderst im Grunde nur den API-Endpoint und das Modell. Der Rest deines Setups bleibt identisch.

Warum das gerade jetzt funktioniert

Vor einem Jahr wären Open-Source Modelle für Agent-Arbeit keine Option gewesen. Die Qualität war zu niedrig, die Tool-Call Fähigkeiten zu instabil, und die Context Windows zu klein.

Das hat sich fundamental verändert. Die aktuellen Modelle auf Ollama Cloud erreichen Benchmark-Ergebnisse die mit den kommerziellen Anbietern mithalten. MiniMax M2.7 zum Beispiel hat eine Skill Adherence von 97 Prozent, das heisst wenn du dem Modell eine SKILL.md gibst (genau das was wir in KW11 behandelt haben), dann hält es sich auch daran. Nemotron-3-Super von NVIDIA schafft 94 Prozent auf dem HMMT Reasoning Benchmark und unterstützt nativ Deutsch. Qwen3-Coder-Next wurde auf 800.000 echten Code-Execution Tasks trainiert und funktioniert out-of-the-box mit Claude Code und Cline.

Das sind keine Spielzeuge mehr. Das sind Modelle die du als Grundlage für ein echtes Agent-Team nehmen kannst. Und du kannst sie mischen: ein Modell für die Koordination, ein anderes für Code Tasks, ein drittes für Analyse. Verschiedene Spezialisten für verschiedene Jobs, alles über eine API, alles für 20 Euro.

Das heisst nicht, dass Open-Source Modelle in jedem Szenario besser sind. Für kreative Arbeit und hochkomplexes Reasoning sind Claude und GPT immer noch stark. Aber für den Grossteil der Agent-Arbeit, die 80 Prozent die klar definiert sind und wiederholt laufen, reichen die aktuellen Open-Source Modelle völlig aus. Und genau diese 80 Prozent sind es, die bei den grossen Anbietern dein Budget auffressen.

Ich hab ein kurzes Loom aufgenommen das zeigt wie du Ollama Cloud in 5 Minuten einrichtest und mit deinen Agents verbindest.

Wo laufen die Agents?

Die API hast du, jetzt stellt sich die Frage: Wo laufen deine Agents? Es gibt drei Wege. Lokal auf deinem Rechner (perfekt zum Testen, null Extrakosten). Auf einem VPS mit Root-Zugang (AWS, Google Cloud, Hostinger) wenn deine Agents rund um die Uhr laufen sollen. Oder auf einem dedizierten Extra-Rechner wie einem Mac Mini der dauerhaft in deinem Netzwerk läuft.

Für den Einstieg reicht lokal. Ollama installieren, Cloud-Abo aktivieren, einen Agent starten. Das dauert keine 30 Minuten. Im Loom Video zeige ich dir den kompletten Prozess.

Happy Building! Sascha

Paperclip Setup Guide und meine zwei Agent-Team Thesen

Morgen gehe ich tiefer:

Paperclip aufsetzen: Vom Onboarding bis zum laufenden Agent-Team
These 1: Paperclip als täglicher Begleiter (an wenn du arbeitest, aus wenn du fertig bist)
These 2: Paperclip 24/7 auf einem VPS (Agents die niemals schlafen)

Dieses fortgeschrittene Tutorial ist exklusiv für Premium-Mitglieder verfügbar. Du erhältst:

Komplettes Video-Tutorial
Fertigen Blueprint zum Kopieren
Zugang zu allen künftigen Premium-Tutorials

Wenn du dich bereit fühlst, dann kann ich dir folgendermaßen helfen:

1) EU AI Act Workshop

Komme der Kompetenzpflicht nach und werde fit im Bewerten des Nutzens von KI - mit “sascha30” bekommst du sogar richtig satten Rabatt.

2) KI Transformation Workshop - Ich gebe Workshops, wie man in einem Business ein KI-First-Mindset entwickelt und ein Team von KI-Experten aufbaut.

3) Lead-Gen-System für dein SaaS Produkt - ich habe ein Lead-Gen-System, das auf KI und den aktuellsten Marketing-Trends basiert und dir nachhaltig Leads generiert.

Reply

or to participate.