J.A.R.V.I.S. selbst gebaut: ein eigener KI-Butler im Browser

„Manchmal muss man rennen, bevor man laufen kann." Und manchmal baut man sich einfach den Assistenten, den es so noch nicht gibt.

Ich gebe es gleich zu Beginn zu: Vieles an diesem Projekt wirkt für Aussenstehende merkwürdig. Ein eigener Sprachassistent, selbst gehostet, in einem Interface wie aus einem Iron-Man-Film. „Wozu das Ganze, wenn es doch Alexa, Siri und Co. gibt?" Genau diese Frage ist der Kern dieses Beitrags. Denn der eigentliche Wert lag für mich nicht im fertigen Produkt, sondern im Weg dorthin.

Warum überhaupt? Der wahre Grund

Ich versuche seit einer Weile, produktiver mit KI zu werden, und zwar in jeder Hinsicht. Nicht im Sinne von „ich tippe eine Frage in ein Chatfenster", sondern grundsätzlicher: Wie integriere ich KI so in meinen Alltag und meine Werkzeuge, dass sie mir echte Arbeit abnimmt? Wie denke ich in Werkzeugen, Automatisierungen und Agenten?

Meine feste Überzeugung dabei: Das lernt man nicht durch Lesen, sondern durch Bauen. Man muss Dinge ausprobieren, auch solche, die auf den ersten Blick keinen Sinn ergeben, umständlich erscheinen oder für die meisten Menschen schlicht keinen Mehrwert bieten. Für mich aber schon. Denn jeder dieser Versuche, selbst die gescheiterten, verschiebt die Grenze dessen, was ich über KI, über meine Hardware und über die Zusammenarbeit zwischen Mensch und Maschine verstehe.

Jarvis ist also weniger ein Produkt als ein Lernprojekt mit praktischem Nebennutzen. Dieser Nebennutzen ist inzwischen erstaunlich gut. Das eigentlich Wertvolle aber war der Prozess.

Die Grundprinzipien

Es läuft auf meiner eigenen Hardware. Ein Proxmox-Homelab, nur im LAN oder per VPN erreichbar, mit PIN und HTTPS geschützt. Meine Wohnung, meine Daten, meine Regeln.

Alles kostenlos, ausser Claude. Die einzige bezahlte Komponente ist mein Claude-Abo. Alle übrigen Daten kommen aus keyless Quellen wie Open-Meteo, NVD, Yahoo, CoinGecko, Hacker News und arXiv. Diese Einschränkung war anstrengend, hat mich aber gelehrt, wie viel mit offenen Quellen möglich ist.

Sprache bleibt lokal und privat. Erkennung (faster-whisper) und Ausgabe (Piper) laufen auf dem Server. Mein Mikrofon-Audio verlässt nie das Haus.

Eigenbau-Interface statt Standard-App. Ein dichtes, lebendiges HUD-Cockpit, das spektakulär aussieht und trotzdem bedienbar bleibt. Schwerer, als es klingt.

Das Cockpit

Zentral sitzt ein Arc-Reaktor, der auf den Zustand reagiert: ruhig im Leerlauf, violett und mit der eigenen Stimme pulsierend beim Zuhören, bernsteinfarben beim Denken, als Klangwelle beim Sprechen. Drumherum echte Live-Daten: Server-Telemetrie, eine Netzwerk-Karte (Omada mit APs, Switches und Clients als Knotengraph), Homelab-Status (Proxmox), Wetter samt 5-Tage-Vorhersage, ein Börsen-Ticker und ein Wächter-Panel. Die Fenster sind frei verschieb- und skalierbar, das Layout wird gespeichert, und alles bleibt responsiv bis aufs Handy.

Reden statt Klicken

„Hey Jarvis" als lokales Wake-Word, Befehl sprechen, gesprochene Antwort. Dahinter steckt mehr, als man denkt: sauberes Resampling von 48 auf 16 kHz (naives Rechnen zerstörte das Wake-Word, das war die erste Lektion), eine adaptive Stille-Erkennung, die den Grundpegel des Raums misst, und lokale Transkription. Allein dieser Teil hat mir mehr über Audio beigebracht als jedes Tutorial.

Smart Home, aber sofort

Ein grosses Modell „nachdenken" zu lassen, nur um ein Licht zu schalten, nervt. Die Lösung ist ein deterministischer Schnellpfad: Klare Befehle wie „Lampe Wohnzimmer an" gehen direkt an Home Assistant, ganz ohne KI, in rund 0,1 Sekunden. Dazu kommt ein Zwei-Gang-Prinzip: Einfaches läuft auf einem schnellen Modell, nur echte Aufgaben schalten in den tiefen Gang. Die Lektion fürs Leben: Nicht alles muss durch das grosse, teure Modell.

Der proaktive Wächter

Jarvis denkt im Hintergrund mit und meldet Kritisches von selbst, knallrot und vorgelesen: 🛡️ neue CVEs für meine Geräte, 📈 Börsen-Crashs, 📡 ein unbekanntes Gerät im WLAN, 🖥️ Proxmox-Ausfälle, 🌦️ Unwetter. Dazu ein Tagesbriefing um 8 Uhr. Aus dem reaktiven Werkzeug wird so ein Assistent, der handelt, bevor ich frage.

Unter der Haube

Claude Agent SDK über mein Abo, mit eigenen Werkzeugen für Smart Home, Finanzen, News, Gedächtnis, Erinnerungen, Wetter und Netzwerk/Homelab. Host-Werkzeuge sind dabei hart gesperrt. Technisch läuft das auf Node und TypeScript (Fastify, WebSockets, SQLite) sowie React, Vite und Tailwind. Die Integrationen für Home Assistant, Omada, Proxmox und Finnhub konfiguriere ich über ein Einstellungs-Panel. Das Ganze läuft rund um die Uhr als systemd-Dienst, mit Autostart und Selbstheilung.

Was nicht funktioniert hat, und warum das wertvoll war

Der Teil, den die meisten verschweigen, sind die Sackgassen. Für mich sind sie der eigentliche Schatz. Ich wollte eine natürlich klingende Frauenstimme und probierte die grosse Lösung: XTTS-v2, ein neuronales Modell, das wirklich menschlich klingt. Installieren, Modell laden, testen, und dann die Ernüchterung: Auf meiner CPU ohne GPU erzeugt XTTS das Audio dreimal langsamer, als es abgespielt wird. Selbst mit Streaming würde es stocken. Technisch tot.

Für viele ist das „verschwendete Zeit". Für mich das Gegenteil: Ich weiss jetzt aus erster Hand, wo die Grenze zwischen CPU- und GPU-Klasse bei der Sprachsynthese liegt und warum ein schlankes Modell oft klüger ist als das beeindruckendste. Solches Wissen bekommt man nur aus dem eigenen Versuch. Und genau das ist mein wichtigster Punkt: ausprobieren, auch wenn es merkwürdig erscheint oder scheitern könnte.

Was ich über produktives Arbeiten mit KI gelernt habe

Bauen schlägt Lesen.

Die richtige Aufgabe an die richtige Stelle. Nicht alles braucht das grösste Modell.

Grenzen lernt man nur durchs Anstossen. Siehe den XTTS-Versuch.

Beim Bauen lernt man erst, was „gut" überhaupt heisst.

Eigentum schafft Vertrauen. Eigenes nutzt man mutiger als eine Blackbox.

Fazit

Jarvis ist der lebende Beweis, dass es sich lohnt, eigene und auch ungewöhnliche Wege zu gehen. Herausgekommen ist ein wirklich nützlicher, privater und erweiterbarer Assistent, ein bisschen wie im Film Ironman. Der grössere Gewinn ist unsichtbar: Ich gehe heute souveräner, kreativer und produktiver mit KI um. Manche werden den Aufwand seltsam finden, und das ist völlig in Ordnung. Für mich war jede Stunde, inklusive der Sackgassen, eine Investition in eine Fähigkeit, die immer wichtiger wird: mit KI nicht nur zu chatten, sondern wirklich zu arbeiten.