Lokales LLM-Setup mit Proxmox & GPU für KMU und Gemeinden
Autor
Ueli Iff
Veröffentlicht
Lesezeit
3 Min.

Du willst KI im Alltag nutzen, ohne deine internen Dokumente aus der Hand zu geben? Dann ist dieser Beitrag für dich. Ich zeige mein praxiserprobtes, lokales LLM-Setup auf Proxmox — mit OpenWebUI und einer Wissensdatenbank (RAG), inklusive Systemüberblick, Learnings und einem Einstieg, der wirklich machbar ist.
Leitgedanke: Dokumente, Fragen und Antworten bleiben im eigenen Haus. Keine ungewollte Datenweitergabe an eine Cloud.
Warum lokal?
Viele wollen KI nutzen — doch sobald interne PDFs, Protokolle oder E-Mails ins Spiel kommen, wird es heikel. Drei Punkte waren mir wichtig:
Daten bleiben lokal. Keine unbeabsichtigte Weitergabe an externe Dienste.
Kosten sind planbar. Kein Abo, keine Überraschungen bei der Abrechnung.
Kontrolle bleibt bei mir. Zugriff, Rollen, Updates und Backups in eigener Hand.
Das Setup in drei Bausteinen
Ich habe die Lösung bewusst in drei klar getrennte Teile aufgeteilt — das hält das System verständlich und wartbar:
Proxmox = Schaltzentrale. Betreibt auf einem Server mehrere virtuelle Maschinen und verwaltet sie.
Ubuntu-VM = Rechenmaschine. Die VM nutzt die Grafikkarte — hier passiert die KI-Rechenarbeit.
OpenWebUI = Bedienoberfläche. Die Browser-Oberfläche zum Chatten, für die Benutzerverwaltung und die Dokumente.
Diese Trennung ist Gold wert: Wenn ich an der Oberfläche etwas ändere oder ein Update schiefgeht, bleibt die Rechenmaschine stabil — und umgekehrt.
So läuft es im Alltag (RAG)
Ich öffne OpenWebUI im Browser und stelle meine Frage. Ist eine Wissensdatenbank aktiv, sucht das System zuerst in meinen Dokumenten nach passenden Stellen und gibt diese der KI mit. Das nennt sich RAG — ich erkläre es gern so: „Erst nachschlagen, dann antworten." Das macht Antworten deutlich zuverlässiger.
Hardware: nichts Spezielles, aber passend
Ich nutze einen alten Gaming-PC — für viele Praxis-Use-Cases reicht das erstaunlich weit:
GPU: NVIDIA RTX 3090 mit 24 GB VRAM.
CPU / RAM: AMD Ryzen 5 5600X, 64 GB RAM.
Speicher: 1× M.2 NVMe 2 TB plus 3× 4 TB für Daten, Backups und Cold Files.
Faustregel: Die Grafikkarte (VRAM) bestimmt, welche Modelle laufen. Schneller Speicher bestimmt, ob sich der Alltag angenehm flüssig anfühlt.
Wissensdatenbank sinnvoll aufbauen
Ich starte klein und strukturiere nach Bereichen (z. B. HR, IT, Verwaltung). Die Dokumente werden in Textabschnitte zerlegt, pro Abschnitt entsteht ein „Such-Fingerabdruck" (Embedding). Bei einer Frage werden die passenden Stellen gefunden, und die KI formuliert daraus die Antwort. Mein Tipp: lieber wenige, gepflegte Dokumente als „alles auf einmal".
Stolpersteine — damit du sie nicht auch hast
GPU in der VM. Einmal sauber einrichten (GPU-Passthrough), dann läuft es stabil.
Zugriff von aussen. Nur über VPN (z. B. Tailscale) oder einen Reverse Proxy mit Login.
Updates. Vorher einen Snapshot anlegen — klemmt es, einfach zurückrollen.
Backups. Den Restore einmal wirklich testen, sonst ist es nur Hoffnung.
Fazit
Ein lokales LLM-Setup lohnt sich, wenn du KI nutzen willst, ohne deine Dokumente aus der Hand zu geben. Mit der Trennung in Schaltzentrale (Proxmox), Rechenmaschine (VM) und Browser-UI (OpenWebUI) bleibt es verständlich und wartbar. Starte klein — dann siehst du schnell, ob du mehr Leistung brauchst oder einfach eine bessere Dokumentenstruktur.

Virtuelle Maschinen vs. Docker — der Unterschied einfach erklärt
Virtuelle Maschinen oder Docker-Container? Architektur, Unterschiede (Grösse, Startzeit, Isolation) und wann sich was lohnt — verständlich mit Grafiken erklärt.

Der US CLOUD Act — welche Gefahren für die Schweiz drohen
Warum der Datenstandort nicht vor dem US CLOUD Act schützt, welche Risiken für Berufsgeheimnis, Datenschutz und Souveränität in der Schweiz entstehen — und wie man sich schützt.

Wie sich KI in der OT entwickelt — und worauf du achten solltest
Wohin sich künstliche Intelligenz in der Operational Technology entwickelt — Edge-Inferenz, Use-Cases und sechs Leitplanken für den sicheren Einsatz.
