Allgemein, KI News, Technologie

Karpathys LLM Wiki: So baust du dir ein zweites Gehirn mit KI

Andrej Karpathy hat LLM Wiki vorgestellt — ein System wo KI automatisch eine persönliche Wissensdatenbank aufbaut. 100 Artikel, 400.000 Wörter, kein Wort selbst geschrieben.

Andrej Karpathy — Ex-Tesla AI-Chef, OpenAI-Mitgründer, einer der einflussreichsten KI-Forscher der Welt — hat aufgehört, KI zum Code schreiben zu nutzen. Stattdessen baut er damit ein zweites Gehirn.

Am 3. April hat er auf X sein Konzept "LLM Knowledge Bases" vorgestellt. Der Post ging viral. Am nächsten Tag veröffentlichte er ein GitHub Gist mit der kompletten Architektur. Sein Ergebnis: Ein einzelnes Research-Thema hat 100 Artikel und 400.000 Wörter produziert — ohne dass er ein einziges Wort selbst geschrieben hat.

Wenn du dich fragst, warum einer der klügsten Köpfe der KI-Welt seine Token nicht mehr für Code ausgibt — hier ist die Antwort.

Was LLM Wiki ist

Inhaltsangabe

Stell dir vor, du wirfst alles was du liest — Artikel, Papers, GitHub Repos, Datensätze, Bilder — in einen Ordner. Ein LLM liest das Material, extrahiert die wichtigsten Konzepte und baut daraus automatisch eine strukturierte Wiki. Mit Zusammenfassungen, Querverweisen und einem Index.

Das Ergebnis ist kein Chat-Verlauf der morgen vergessen ist. Es ist eine wachsende, vernetzte Wissensdatenbank in reinen Markdown-Dateien. Jedes Mal wenn du neues Material hinzufügst, aktualisiert die KI bestehende Artikel, erstellt neue und verknüpft alles miteinander.

Karpathy nennt es "compilation" — die KI kompiliert Rohmaterial in Wissen, so wie ein Compiler Code in ein Programm übersetzt. Nur dass hier aus 50 unsortierten PDFs ein sauber strukturiertes Nachschlagewerk wird.

Das Besondere: Die Wiki ist kein statisches Dokument. Sie lebt. Jedes neue Paper das du reinwirfst, verändert bestehende Artikel. Konzepte werden neu verknüpft. Widersprüche werden markiert. Die KI arbeitet wie ein Redakteur der dein Wissen ständig aktuell hält.

Warum das besser ist als RAG

Die meisten Leute nutzen KI mit Dokumenten so: Du lädst Dateien hoch, die KI durchsucht sie bei jeder Frage und bastelt eine Antwort zusammen. Das ist RAG (Retrieval Augmented Generation). Es funktioniert — aber es hat ein fundamentales Problem.

Bei RAG entdeckt die KI bei jeder Frage alles von vorne. Kein Gedächtnis, keine Akkumulation. Du fragst heute nach Konzept A und morgen nach Konzept B — die KI weiß nicht, dass die beiden zusammenhängen. Das Wissen bleibt fragmentiert.

Karpathys Ansatz dreht das um. Statt bei jeder Frage alles neu zusammenzusuchen, kompiliert die KI das Wissen einmalig in eine Struktur. Frag etwas Komplexes das fünf Dokumente verbindet — die Antwort steht schon fertig im Wiki. Die Verbindungen wurden beim Ingest hergestellt, nicht erst bei der Frage.

VentureBeat beschreibt es als eine Architektur die RAG mit einer sich entwickelnden Markdown-Bibliothek umgeht.

Ein konkretes Beispiel: Du recherchierst AI-Agenten. Du wirfst 30 Artikel rein — über OpenClaw, Claude Code, Salesforce Agentforce, Gartner-Prognosen. RAG würde bei jeder Frage 5-10 relevante Chunks suchen und hoffen, die richtigen zu finden. Karpathys Wiki hat die Zusammenhänge schon hergestellt: Einen Artikel über "AI Agent Frameworks im Vergleich", einen über "Enterprise Adoption Timeline", einen über "Open Source vs. Proprietär". Alles verlinkt, alles aktuell.

Die drei Schichten der Architektur

1. Raw-Ordner: Hier wirfst du alles rein. Artikel, Papers, Repos, Bilder, Datensätze. Unstrukturiert, wie ein Schreibtisch voller Notizen. Karpathy betont: Die Qualität der Quellen bestimmt die Qualität des Wiki. Müll rein, Müll raus — das gilt auch hier.

2. Schema: Eine Datei (z.B. CLAUDE.md für Claude Code oder AGENTS.md für Codex) die dem LLM sagt, wie das Wiki aufgebaut ist. Welche Konventionen gelten, wie neue Quellen verarbeitet werden, wie der Index funktioniert. Das Schema ist das Herzstück — es definiert die Regeln nach denen die KI arbeitet. Ohne gutes Schema bekommst du ein Durcheinander statt eines Wiki.

3. Wiki: Die strukturierte Ausgabe. Markdown-Dateien mit Zusammenfassungen, Konzept-Artikeln, Backlinks und Querverweisen. Wächst mit jedem neuen Dokument das du einfütterst. Karpathy nutzt bewusst reines Markdown — kein Notion, keine Datenbank, keine Vektoren. Warum? Markdown ist das kompakteste, LLM-lesbarste und menschlich prüfbare Format.

Die drei Operationen

Ingest — Neues Wissen aufnehmen: Du wirfst eine neue Quelle in den Raw-Ordner. Das LLM liest sie, bespricht die wichtigsten Erkenntnisse mit dir, schreibt einen Summary-Artikel, aktualisiert den Index und verknüpft mit bestehenden Konzepten. Das ist der wichtigste Schritt — hier wird aus Information Wissen.

Konkret: Du gibst dem Agent den Befehl "Verarbeite die neue Quelle in raw/neuer-artikel.pdf". Der Agent liest das Dokument, identifiziert 5-10 Kernkonzepte, prüft ob diese schon im Wiki existieren, erstellt neue Artikel oder ergänzt bestehende, aktualisiert den Index und setzt Backlinks. In 2-3 Minuten ist ein 20-seitiges Paper in dein Wissensnetz integriert.

Query — Wissen abfragen: Du fragst das Wiki und bekommst Antworten mit Zitaten — alles aus deinen eigenen Quellen. Keine Halluzinationen, weil die KI nicht raten muss. Die Antwort steht im Wiki, fertig aufbereitet.

Lint — Qualität sichern: Eine Art Gesundheitscheck. Das LLM scannt das gesamte Wiki auf Widersprüche, fehlende Einträge und veraltete Querverweise. Wie ein Lektor der dein Nachschlagewerk aktuell hält. Karpathy empfiehlt, den Lint regelmäßig laufen zu lassen — besonders nach größeren Ingest-Batches.

Das Idea File Konzept

Karpathy hat bewusst keine fertige Software veröffentlicht, sondern ein "Idea File". Seine Begründung: In der Ära von LLM-Agenten teilt man keine Implementierungen mehr, sondern Ideen. Jeder Agent baut daraus eine Version die zu den eigenen Bedürfnissen passt.

Das ist ein fundamentaler Shift. Früher hast du ein GitHub Repo geteilt mit Code den andere klonen. Heute teilst du eine Idee — und jeder LLM-Agent implementiert sie anders, angepasst an den jeweiligen Stack und Workflow. Der teilbare Baustein ist nicht mehr Code, sondern das Konzept.

Antigravity Codes erklärt: Markdown als Format ist bewusst gewählt. Kein proprietäres Schema, keine Vektordatenbank, keine Embeddings. Maximal portabel, maximal transparent.

Karpathys offizielles Idea File findest du hier: GitHub Gist. Schema kopieren, an dein Setup anpassen, loslegen.

Schritt-für-Schritt: So baust du dein eigenes LLM Wiki

Schritt 1: Agent wählen. Du brauchst einen LLM-Agenten der Dateien lesen und schreiben kann. Claude Code, OpenAI Codex oder OpenClaw funktionieren alle. Wichtig ist, dass der Agent Zugriff auf dein Dateisystem hat.

Schritt 2: Ordnerstruktur anlegen. Erstelle zwei Ordner: raw/ für deine Rohmaterialien und wiki/ für die strukturierte Ausgabe. Dazu eine Schema-Datei (CLAUDE.md oder AGENTS.md) die dem Agent die Regeln vorgibt.

Schritt 3: Schema definieren. Das Schema sagt dem Agent: Wie sollen Artikel strukturiert sein? Welche Metadaten braucht jeder Eintrag? Wie funktioniert der Index? Wie werden Backlinks gesetzt? Karpathys GitHub Gist ist der beste Startpunkt.

Schritt 4: Erste Quellen einfüttern. Starte mit 5-10 Dokumenten zu einem Thema. Gib dem Agent den Befehl, sie zu verarbeiten. Prüfe die Ergebnisse, passe das Schema an, wiederhole.

Schritt 5: Wachsen lassen. Ab jetzt wirfst du alles Relevante in den Raw-Ordner. Der Agent verarbeitet es und dein Wiki wächst. Nach ein paar Wochen hast du eine Wissensdatenbank die kein einzelner Mensch in der gleichen Zeit hätte aufbauen können.

Wo LLM Wiki an seine Grenzen stößt

Das System ist nicht perfekt. Bei sehr großen Wikis (500+ Artikel) kann der Agent den Überblick verlieren. Das Context Window begrenzt, wie viel der Agent gleichzeitig sehen kann. Karpathy löst das über den Index — der Agent liest erst den Index und navigiert dann gezielt zu den relevanten Artikeln.

Außerdem: Die Qualität hängt stark vom Schema ab. Ein schlechtes Schema produziert eine chaotische Wiki. Und die Lint-Operation kann bei großen Wikis viele Tokens verbrauchen. Das kostet — entweder Geld (API) oder Zeit (lokale Modelle).

Und: Du musst die Quellen selbst kuratieren. Die KI kompiliert was du ihr gibst. Wenn du schlechte Quellen reinwirfst, bekommst du ein sauber strukturiertes Wiki voller falscher Informationen. Garbage in, garbage out — nur schöner formatiert.

Was das für dein Business bedeutet

Stell dir vor, du baust ein LLM Wiki für dein Unternehmen. Jeder Mitarbeiter füttert relevante Dokumente rein — Kundengespräche, Marktanalysen, Produktfeedback, Wettbewerber-Reports. Die KI vernetzt alles automatisch. Nach ein paar Monaten hast du ein lebendes Nachschlagewerk das mehr weiß als jeder einzelne Mitarbeiter.

Für Berater und Agenturen: Dein gesamtes Branchenwissen strukturiert, durchsuchbar und vernetzt. Wenn ein neuer Kunde fragt "Was wisst ihr über Voice Agents im Banking?", hat dein Wiki die Antwort — zusammengestellt aus 50 Quellen die du über Monate gesammelt hast.

Für Content Creator: Nie wieder bei null anfangen. Dein Wiki hat alle Fakten, Statistiken und Zusammenhänge zu deinen Kernthemen. Ein Blogpost der früher 4 Stunden Recherche gebraucht hat, schreibt sich in 30 Minuten — weil das Wissen schon aufbereitet ist.

Für Forscher und Entwickler: Karpathys Original-Use-Case. Ein Thema tief durchdringen, ohne sich in hunderten Tabs zu verlieren. Die KI hält den Überblick, du konzentrierst dich auf die Insights.

LLM Wiki vs. NotebookLM: Was ist besser?

Beide Systeme lösen ein ähnliches Problem, aber unterschiedlich. NotebookLM ist Googles Ansatz: Du lädst Docs hoch, Gemini antwortet nur aus deinen Quellen. Einfach, sofort nutzbar, aber die Antworten werden bei jeder Frage neu generiert (wie RAG).

Karpathys LLM Wiki geht weiter: Die KI baut eine persistente Wissensstruktur auf. Das Wissen akkumuliert über die Zeit. Aber es ist technischer — du brauchst einen LLM-Agenten und musst das Schema selbst definieren.

Am besten: Beides kombinieren. NotebookLM für schnelle Fragen an einzelne Dokumente. LLM Wiki für langfristigen Wissensaufbau über Monate.

Meine Einschätzung

Karpathy hat einen Nerv getroffen. Die Idee dass KI nicht nur Fragen beantwortet, sondern aktiv Wissen aufbaut und pflegt — das ist der nächste logische Schritt nach Chatbots und Agenten. Die KI wird vom Assistenten zum Wissensarchitekten.

Was mich am meisten beeindruckt: 400.000 Wörter zu einem Thema, ohne ein Wort selbst zu schreiben. Das ist länger als die meisten Dissertationen. Und es wächst jeden Tag weiter.

Dass Karpathy ein "Idea File" statt Code teilt, zeigt wohin die Entwicklung geht. Die teilbare Einheit in der KI-Welt ist nicht mehr die Implementierung — es ist das Konzept. Dein Agent baut die Implementierung.

Ich teste das gerade für meine eigenen Projekte. Wenn es hält was es verspricht, ändert das wie ich recherchiere, lerne und Content erstelle. Komplett.

Du willst wissen, wie du KI als Wissensmanagement-Tool einsetzt? → Kostenlosen Analyse-Call buchen