Allgemein

CutClaw: Wie ein Multi-Agent-System stundenlange Videos in perfekte Shorts schneidet

CutClaw ist ein Multi-Agent Framework, das stundenlange Rohvideos autonom zu rhythmischen Shorts schneidet. Paper und GitHub-Repo sind live — hier ist der Business-Take.

Stundenlanges Rohmaterial. Aus einer Konferenz, einer Wanderung, einem Livestream. Und du sollst daraus in einer Stunde ein 60-Sekunden-Video für Instagram zaubern. Wer das schon mal gemacht hat, weiß: Das ist die Sorte Arbeit, bei der AI bisher versagt hat.

Jetzt gibt es CutClaw. Ein Multi-Agent-System, das lange Videos autonom in rhythmisch geschnittene Shorts verwandelt — inklusive Musik-Synchronisation. Das Paper ist diese Woche auf Hugging Face getrendet. Und anders als viele Research-Projekte ist der Code direkt auf GitHub verfügbar: github.com/GVCLab/CutClaw.

Was genau ist CutClaw?

Inhaltsangabe

CutClaw ist ein autonomes Multi-Agent-Framework, entwickelt von Forschern der Beijing Jiaotong University, der Great Bay University und Tencents ARC Lab. Das Ziel: Aus stundenlangem Rohvideo automatisch kurze, narrativ kohärente Videos schneiden, die rhythmisch zu einer Musikspur passen.

Das System nutzt Multimodal Large Language Models (MLLMs) als Agenten. Drei spezialisierte Rollen teilen sich die Arbeit:

Playwriter: Analysiert die Musikstruktur und verankert die Narrative darin. Er entscheidet, welche Geschichte in welche musikalische Sektion passt.
Editor: Macht das Fine-Grained Visual Grounding. Er durchsucht das Rohmaterial, wählt Clips aus und platziert sie auf exakte Timestamps.
Reviewer: Checkt am Ende die Ästhetik und Continuity. Er sorgt dafür dass keine Jump Cuts, keine Logik-Brüche und keine visuellen Fehler drin sind.

Bevor die drei Agenten loslegen, wird das Rohmaterial in strukturierte Captions zerlegt — Audio und Video werden quasi in eine Art Skript übersetzt. Auf dieser Basis arbeiten die Agenten dann weiter.

Was macht das besser als existierende Tools?

Es gibt heute schon AI-Schnitt-Tools — Opus Clip, Vizard, Descript, Canva Magic Cut. Die funktionieren alle nach einem ähnlichen Muster: Transcript generieren, nach Schlüsselmomenten scannen, Clips ausschneiden. Gut für Talking-Head-Videos, schlecht für alles mit visueller Dynamik.

CutClaw geht einen Schritt weiter. Der Playwriter Agent versucht nicht nur „was wird gesagt“, sondern „was passiert visuell und wie passt das zu einem Beat“. Für einen Wandervlog bedeutet das: Der Cut wechselt genau auf den Drum-Hit, wenn du über einen Grat läufst. Das ist ein echter Qualitätsunterschied, wenn du für Social produzierst.

Die Autoren zeigen im Paper, dass CutClaw die State-of-the-Art-Baselines deutlich schlägt — sowohl bei Rhythmus-Alignment als auch bei narrativer Kohärenz. Das ist Research-Sprache für: Es sieht aus wie von einem Menschen geschnitten, nicht wie ein Keyframe-Auto-Cut.

Was bedeutet das für dein Business?

Ich schneide selbst Content und kenne den Schmerz. Für jeden Blog-Post auf digiak.ai musste ich mich bisher fragen: Lohnt sich ein Video dazu? Die Antwort war meistens Nein, weil der Schnittaufwand zu hoch war. CutClaw ändert die Gleichung an drei Stellen:

1. Solo-Creator bekommen Editor-Power. Wenn du Interviews, Podcasts oder Vlogs produzierst und keinen Editor anstellen willst, kannst du CutClaw auf das Rohmaterial loslassen und bekommst Social-Shorts zurück. Der Qualitätsunterschied zu Opus Clip ist spürbar — besonders bei B-Roll-lastigem Content.

2. Content-Marketing wird skalierbar. Ich hab mir das gestern genauer angeschaut mit einer klassischen KMU-Rechnung: Ein Social-Manager kostet in Deutschland grob 3500 Euro brutto im Monat. Ein guter Video-Editor easy 5000. Mit Tools wie CutClaw kannst du beide Rollen für bestimmte Content-Typen durch ein Single-Person-Team + AI ersetzen. Das ist nicht die Zukunft — das geht heute, wenn du den Workflow aufbaust.

3. Agenten ersetzen Workflows, nicht Tools. Das eigentlich Interessante an CutClaw ist nicht das Video-Editing, sondern das Muster. Drei Agenten, jeder mit klarer Rolle, die gemeinsam ein komplexes Problem lösen. Genau so sehen Production-Grade AI-Agenten aus. Nicht ein riesiges Modell das alles macht, sondern kleine spezialisierte Agenten die sich abstimmen. Das ist die Architektur die wir gerade auch bei OpenClaw-Projekten nutzen.

Die Grenzen

Ehrlich sein: CutClaw ist Research-Code. Das Paper ist frisch, das GitHub-Repo ist da, aber die Installation ist nichts für Nicht-Techniker. Du brauchst Python, CUDA, GPU mit mindestens 24GB VRAM, und etwas Geduld. Wer damit gleich produktiv werden will, muss warten bis jemand das Ganze als Webservice oder Desktop-App verpackt. Ich vermute drei bis sechs Monate, dann gibt es die ersten SaaS-Angebote die CutClaw unter der Haube fahren.

Zweite Grenze: Die Musik-Synchronisation funktioniert am besten mit klar strukturierter Musik — Pop, Electronic, Hip-Hop. Für Ambient oder klassische Musik ist das System weniger stark, weil der Rhythmus schwerer zu isolieren ist.

Praxis-Szenario: Vom Event-Vlog zur Short-Pipeline

Stell dir vor, du nimmst auf einem Tech-Event vier Stunden Material auf — Keynotes, Interviews, B-Roll von Besuchern, Messestand-Walks. Klassischer Workflow:

Import in Premiere oder DaVinci: 45 Minuten
Sichtung und Logging: 3 Stunden
Auswahl der besten Momente: 1 Stunde
Rohschnitt mit Musik: 2 Stunden
Feintuning und Export: 1 Stunde

Gesamt: rund 8 Stunden. Und das ist optimistisch.

Mit CutClaw-Pipeline:

Video + Musik-Track in den Agent füttern: 5 Minuten Setup
Playwriter plant die Narrative entlang der Musik: automatisch
Editor schneidet die Clips: automatisch
Reviewer checkt Continuity: automatisch
Du bekommst einen Rohschnitt zurück: ca. 30 Minuten Wartezeit
Manuelles Feintuning und Export: 30 Minuten

Gesamt: knapp eine Stunde. Bei gleichem visuellen Ergebnis. Das ist ein 8x Productivity-Boost für einen Use Case den KMU nie skalieren konnten, weil die Personalkosten zu hoch waren.

Selbst ausprobieren

Wer technisch genug ist und eine GPU hat, kann CutClaw direkt selbst testen. Das komplette Repository mit Installations-Anleitung, Demo-Notebooks und Beispiel-Outputs findest du hier: github.com/GVCLab/CutClaw. Das Paper liegt auf Hugging Face, falls du die Architektur im Detail verstehen willst bevor du installierst.

Wie der Trend weiterläuft

CutClaw ist ein früher Indikator für etwas Größeres. Wir sehen gerade überall Multi-Agent-Systeme die klassische Workflows aufbrechen: Claude Code fürs Programmieren, AI Scientist-v2 für Forschung, jetzt CutClaw fürs Video. Überall dasselbe Muster: Mehrere MLLMs als spezialisierte Rollen, koordiniert durch einen Orchestrator.

Was das für 2026 heißt: Jeder Workflow der heute 5-10 menschliche Schritte hat, wird in den nächsten 12 Monaten als Agent-Pipeline gebaut. Content-Production, Research, Kundensupport, Onboarding, Buchhaltung — überall. Und die Frage für Unternehmer ist nicht mehr „Wird AI meinen Workflow übernehmen?“, sondern „Wie baue ich meine AI-Pipeline so auf, dass ich der Betreiber und nicht der Betroffene bin?“

Fazit

CutClaw ist technisch beeindruckend, aber das eigentlich Spannende ist das architektonische Muster: Drei spezialisierte Agenten lösen ein Problem, das ein einzelnes LLM nie gut konnte. Wer heute in AI-Agenten investiert, sollte genau hinschauen wie solche Systeme designed werden. Video-Schnitt ist nur der Anfang — das gleiche Muster funktioniert für jeden komplexen kreativen Workflow.

Mein Take: Behalte Multi-Agent-Frameworks wie CutClaw im Blick. Nicht weil du morgen damit Videos schneidest, sondern weil sie dir zeigen wie du deine eigenen AI-Workflows bauen solltest.

Du willst AI-Agenten für deinen Workflow bauen? → Kostenlosen Analyse-Call buchen