AI,  IT,  Cloud & Souveränität

Lokales LLM-Setup mit Proxmox & GPU für KMU und Gemeinden

Autor

Ueli Iff

Veröffentlicht

Lesezeit

3 Min.

Lokales LLM-Setup mit Proxmox und GPU

Du willst KI im Alltag nutzen, ohne deine internen Dokumente aus der Hand zu geben? Dann ist dieser Beitrag für dich. Ich zeige mein praxiserprobtes, lokales LLM-Setup auf Proxmox — mit OpenWebUI und einer Wissensdatenbank (RAG), inklusive Systemüberblick, Learnings und einem Einstieg, der wirklich machbar ist.

Leitgedanke: Dokumente, Fragen und Antworten bleiben im eigenen Haus. Keine ungewollte Datenweitergabe an eine Cloud.

Warum lokal?

Viele wollen KI nutzen — doch sobald interne PDFs, Protokolle oder E-Mails ins Spiel kommen, wird es heikel. Drei Punkte waren mir wichtig:

Daten bleiben lokal. Keine unbeabsichtigte Weitergabe an externe Dienste.

Kosten sind planbar. Kein Abo, keine Überraschungen bei der Abrechnung.

Kontrolle bleibt bei mir. Zugriff, Rollen, Updates und Backups in eigener Hand.

Das Setup in drei Bausteinen

Ich habe die Lösung bewusst in drei klar getrennte Teile aufgeteilt — das hält das System verständlich und wartbar:

Proxmox = Schaltzentrale. Betreibt auf einem Server mehrere virtuelle Maschinen und verwaltet sie.

Ubuntu-VM = Rechenmaschine. Die VM nutzt die Grafikkarte — hier passiert die KI-Rechenarbeit.

OpenWebUI = Bedienoberfläche. Die Browser-Oberfläche zum Chatten, für die Benutzerverwaltung und die Dokumente.

Diese Trennung ist Gold wert: Wenn ich an der Oberfläche etwas ändere oder ein Update schiefgeht, bleibt die Rechenmaschine stabil — und umgekehrt.

So läuft es im Alltag (RAG)

Ich öffne OpenWebUI im Browser und stelle meine Frage. Ist eine Wissensdatenbank aktiv, sucht das System zuerst in meinen Dokumenten nach passenden Stellen und gibt diese der KI mit. Das nennt sich RAG — ich erkläre es gern so: „Erst nachschlagen, dann antworten." Das macht Antworten deutlich zuverlässiger.

Hardware: nichts Spezielles, aber passend

Ich nutze einen alten Gaming-PC — für viele Praxis-Use-Cases reicht das erstaunlich weit:

GPU: NVIDIA RTX 3090 mit 24 GB VRAM.

CPU / RAM: AMD Ryzen 5 5600X, 64 GB RAM.

Speicher: 1× M.2 NVMe 2 TB plus 3× 4 TB für Daten, Backups und Cold Files.

Faustregel: Die Grafikkarte (VRAM) bestimmt, welche Modelle laufen. Schneller Speicher bestimmt, ob sich der Alltag angenehm flüssig anfühlt.

Wissensdatenbank sinnvoll aufbauen

Ich starte klein und strukturiere nach Bereichen (z. B. HR, IT, Verwaltung). Die Dokumente werden in Textabschnitte zerlegt, pro Abschnitt entsteht ein „Such-Fingerabdruck" (Embedding). Bei einer Frage werden die passenden Stellen gefunden, und die KI formuliert daraus die Antwort. Mein Tipp: lieber wenige, gepflegte Dokumente als „alles auf einmal".

Stolpersteine — damit du sie nicht auch hast

GPU in der VM. Einmal sauber einrichten (GPU-Passthrough), dann läuft es stabil.

Zugriff von aussen. Nur über VPN (z. B. Tailscale) oder einen Reverse Proxy mit Login.

Updates. Vorher einen Snapshot anlegen — klemmt es, einfach zurückrollen.

Backups. Den Restore einmal wirklich testen, sonst ist es nur Hoffnung.

Fazit

Ein lokales LLM-Setup lohnt sich, wenn du KI nutzen willst, ohne deine Dokumente aus der Hand zu geben. Mit der Trennung in Schaltzentrale (Proxmox), Rechenmaschine (VM) und Browser-UI (OpenWebUI) bleibt es verständlich und wartbar. Starte klein — dann siehst du schnell, ob du mehr Leistung brauchst oder einfach eine bessere Dokumentenstruktur.

// Weitere Beiträge