Alle Artikel

Lokale KI mit Ollama: DSGVO-konform, kostenlos und Big-Tech-unabhängig (Mein Setup als Freelancer)

Ollama für Freelancer erklärt: LLMs lokal betreiben, DSGVO-konform mit Kundendaten arbeiten, Hardware-Realität auf dem Mac und n8n-Integration.

24. Apr. 2026 · 12 Min. Lesezeit

Lokale KI mit Ollama: DSGVO-konform, kostenlos und Big-Tech-unabhängig (Mein Setup als Freelancer)

Irgendwann im Februar habe ich einen Kunden-NDA in ChatGPT eingefügt, um ihn zusammenzufassen. Dann habe ich kurz nachgedacht. Dann habe ich den Browser-Tab geschlossen und mir einen Kaffee gemacht.

Das Unbehagen war real: Ich wusste nicht, ob OpenAI diesen Text zum Training nutzt. Ich wusste nicht, auf welchen Servern er landet. Ich wusste, dass ich für meinen Kunden haftbar wäre, wenn das schiefgeht. Und ich wusste, dass der EU AI Act in wenigen Monaten noch mehr Transparenzpflichten mit sich bringt.

Die Lösung, die ich danach gefunden habe, läuft gerade auf meinem MacBook M3 Pro. Sie kostet nichts. Kein Prompt verlässt meinen Rechner. Und sie heißt Ollama.

Warum ich nach dem EU AI Act angefangen habe, KI lokal zu betreiben (und was ich dabei entdeckt habe)

Das DSGVO-Problem mit ChatGPT & Co. bei Kundendaten

Viele Freelancer nutzen ChatGPT für ihre tägliche Arbeit, ohne sich Gedanken darüber zu machen, was mit den eingetippten Texten passiert. Bei simplen Prompts ohne Personenbezug ist das meistens kein Drama. Aber sobald Kundendaten ins Spiel kommen, wird es rechtlich heikel.

Das Grundproblem: Die kostenlose ChatGPT-Version hat keine Datenverarbeitungsvereinbarung (AVV) mit dir. Das bedeutet, du kannst OpenAI nicht als Auftragsverarbeiter einbinden, der den DSGVO-Anforderungen deiner Kunden entspricht. Wenn du trotzdem personenbezogene Daten eintippst, riskierst du eine Datenschutzverletzung nach Art. 4 Nr. 12 DSGVO. Die meldepflicht bei der Aufsichtsbehörde gilt dann für dich als Verantwortlichen.

Die bezahlte ChatGPT-API bietet zwar eine AVV an. Trotzdem verarbeiten deine Daten weiterhin auf US-Servern, mit den bekannten Unsicherheiten rund um Drittlandtransfers seit dem EuGH-Urteil zu Safe Harbor und Privacy Shield. Wer mit sensiblen Kundendaten arbeitet, steht also vor der Frage: Wie nutze ich KI, ohne diese Rechtsunsicherheit mitzunehmen?

Meine Antwort: lokal.

Lokale KI als Lösung: Kein Prompt verlässt deinen Computer

Wenn das Modell auf deinem eigenen Gerät läuft, gibt es keine Datenweitergabe. Keinen US-Server. Kein Training mit deinen Prompts. Keine AVV nötig. Der Text deines Kunden-NDAs bleibt auf deiner SSD, wird lokal verarbeitet und nirgendwo sonst hingeschickt.

Das klingt nach aufwändiger IT-Infrastruktur. Ist es aber nicht. Und das ist der Punkt, an dem Ollama ins Spiel kommt.

Was ist Ollama - und wie funktioniert es?

Ollama in 2 Sätzen erklärt: Der einfachste Weg, KI-Modelle lokal zu betreiben

Ollama ist ein Open-Source-Tool, das LLMs (Large Language Models) auf deinem eigenen Rechner betreibt. Du lädst ein Modell herunter, startest einen Befehl im Terminal, und hast sofort einen KI-Chatbot, der vollständig offline funktioniert - inklusive lokaler API, die du in andere Tools integrieren kannst.

Technisch gesprochen nutzt Ollama llama.cpp als Inference-Backend und abstrahiert die gesamte Komplexität weg. Du brauchst keine CUDA-Kenntnisse, keine Python-Environments, keine Docker-Magie. Nur ein Terminal und einen Download.

Welche Modelle kann ich nutzen? (Llama 3.2, Mistral 7B, Qwen 2.5, Phi-3 - alle kostenlos)

Das Schöne: Die besten Open-Source-Modelle sind gratis. Ollama stellt sie über eine eigene Library bereit. Hier die wichtigsten für den Freelancer-Alltag:

ModellGrösseRAM-BedarfStärke
Llama 3.2 (3B)~2 GB8 GBSchnell, für einfache Aufgaben
Llama 3.2 (8B)~5 GB16 GBGute Balance Qualität/Speed
Mistral 7B v0.3~4 GB16 GBTexte, Code, 128K Kontext
Qwen 3 (4B)~3 GB8 GBMehrsprachig, Deutsch gut
Phi-3 Mini~2 GB8 GBSehr schnell, leichtgewichtig

Für die meisten Freelancer-Aufgaben reicht Llama 3.2 (8B) oder Mistral 7B vollkommen aus. Der Qualitätsunterschied zu GPT-4o ist bei Standard-Textaufgaben vorhanden, aber nicht so groß, dass es für DSGVO-relevante Workflows unakzeptabel wäre.

Ich nutze Qwen 3 (4B) für schnelle Zusammenfassungen auf meinem M3 Pro mit 18 GB RAM. Der versteht Deutsch überraschend gut.

LM Studio als Alternative: Wenn du eine grafische Oberfläche bevorzugst

Ollama läuft primär im Terminal. Wer lieber mit einer grafischen Oberfläche arbeitet, kann LM Studio ausprobieren. Das ist kostenlos, bietet einen integrierten Chat-Browser und lädt Modelle direkt von Hugging Face.

Der Vorteil von LM Studio: Du siehst, was du tust. Modelle verwalten, Konversationen führen, Einstellungen anpassen - alles mit Klicks statt Befehlen. Der Nachteil: LM Studio verbraucht deutlich mehr Arbeitsspeicher-Overhead als Ollama (bis zu 5x laut Vergleichstests) und ist Closed Source, was für manche ein Vertrauensproblem darstellt.

Meine Empfehlung: Fang mit Ollama an. Wenn du die Bedienung über Terminal scheust, wechsel zu LM Studio. Beide nutzen im Hintergrund dasselbe llama.cpp-Backend, also ist die generierte Qualität identisch.

Installation in 5 Minuten: So richtest du Ollama auf deinem Mac oder PC ein

Schritt 1: Download von ollama.com und Installation (Mac, Windows, Linux)

Geh auf ollama.com und lade das Installationspaket herunter. Auf dem Mac ist das eine normale .dmg-Datei. Auf Windows eine .exe. Unter Linux geht es per curl-Befehl:

curl -fsSL https://ollama.com/install.sh | sh

Nach der Installation läuft Ollama im Hintergrund als Dienst auf localhost:11434. Das war es. Keine Konfiguration nötig.

Schritt 2: Erstes Modell herunterladen und starten

Öffne ein Terminal und tippe:

ollama run llama3.2

Ollama lädt automatisch das Modell herunter (beim ersten Mal) und startet direkt einen Chat. Du kannst sofort schreiben. Willst du Modelle separat verwalten:

ollama pull mistral          # Mistral 7B herunterladen
ollama pull qwen3:4b         # Qwen 3 (4B) herunterladen
ollama pull phi3             # Phi-3 Mini herunterladen
ollama list                  # Alle installierten Modelle anzeigen

Das Modell bleibt auf deiner Festplatte. Ab diesem Moment startet es sofort ohne Internetverbindung.

Schritt 3: Das Wichtigste - API absichern (die Sicherheitslücke, die 175.000 Nutzer übersehen haben)

Hier wird es ernst. Sicherheitsforscher haben mehr als 175.000 öffentlich erreichbare Ollama-Instanzen weltweit gefunden - verteilt auf 130 Länder, darunter auch Deutschland. Der Fehler war immer derselbe: Nutzer haben Ollama so konfiguriert, dass es auf alle Netzwerkinterfaces lauscht, anstatt nur auf localhost.

Ollama selbst ist per Default sicher: Es bindet auf 127.0.0.1:11434 und ist von außen nicht erreichbar. Das Problem entsteht, wenn du den Host auf 0.0.0.0 setzt, um Ollama etwa vom Handy oder einem anderen Gerät erreichbar zu machen. Dann ist die API ungeschützt im Netz.

Wichtig: Ollama hat keine eingebaute Authentifizierung. Wenn du die API nach außen öffnest, hat jeder Zugriff auf deine Modelle - und bei 48% der exponierten Hosts sogar auf Tool-Calling-Funktionen, die Code ausführen können.

Für Freelancer auf dem eigenen MacBook gilt: Lass die Standardeinstellung, ändere nichts am Host. Du brauchst keine externe Erreichbarkeit. Fertig, sicher.

Willst du Ollama auf einem Hetzner VPS betreiben (für mehr Performance), dann sicherst du den Port über UFW und Nginx Reverse Proxy mit Basic Auth. Aber das ist ein eigenes Thema.

Für welche Freelancer-Aufgaben lokale KI tatsächlich gut ist (und wo Cloud besser bleibt)

Ja zu lokal: Kundendaten analysieren, interne Dokumente zusammenfassen, sensible Texte überarbeiten

Das ist mein persönlicher Sweet Spot für Ollama:

  • NDAs und Verträge zusammenfassen: Das Modell verarbeitet den Text lokal. Kein Risiko, kein Unbehagen.
  • Kundenprojekte strukturieren: Briefings, Feedback-Protokolle, interne Notizen - alles offline analysierbar.
  • Code-Reviews mit proprietärem Code: Gerade für Freelancer, die unter NDA entwickeln, ein echter Vorteil gegenüber GitHub Copilot oder Claude.
  • Rechnungstexte und Angebote formulieren: Kein Kundenbezug nötig, aber trotzdem angenehm ohne Cloud.
  • Erste Entwürfe für DSGVO-relevante Dokumente: Datenschutzerklärungen, AVV-Texte, interne Policies.

Ja zu lokal: Rechnungen, Verträge, NDA-Inhalte - alles was nicht in fremde Server gehört

Der Grundsatz, den ich jetzt nach dem EU AI Act-Post für mich verabschiedet habe: Sobald Kundendaten im Spiel sind, läuft KI lokal. Punkt.

Das klingt strenger als nötig? Vielleicht. Aber es ist die einfachste Regel, die mich vor DSGVO-Problemen schützt. Statt jedes Mal abzuwägen, ob der konkrete Prompt personenbezogen ist, habe ich eine klare Grenze.

Besser bei Cloud: Echtzeit-Internetrecherche, große Kontext-Aufgaben, multimodale Analyse

Lokal schlägt Cloud nicht in jeder Situation:

  • Aktuelle Informationen: Lokale Modelle haben kein Internet. Wenn ich schnell recherchieren will, bleibt ChatGPT oder Perplexity die bessere Wahl.
  • Sehr langer Kontext: Ich verarbeite gelegentlich 50-seitige Dokumente. Dort stoßen kleinere lokale Modelle an Grenzen.
  • Bilder analysieren: Multimodale Aufgaben funktionieren lokal zwar auch (Llava und andere Vision-Modelle), aber deutlich schlechter als GPT-4o oder Claude 3.5.
  • Komplexes Reasoning: Für anspruchsvolle Analysen ist GPT-4o oder Claude Pro nach wie vor überlegen.

Der Vergleich zwischen ChatGPT, Claude und Gemini bleibt für Cloud-Tasks relevant. Lokal ist kein Ersatz, sondern eine Ergänzung.

Hardware-Realität: Welchen Mac oder PC brauchst du für gute Performance?

M1/M2/M3 MacBook: Laufen lokale Modelle gut, Llama 3.2 8B flüssig

Apple Silicon ist für lokale LLMs der beste Consumer-Chip, den du gerade kaufen kannst. Der Grund: Unified Memory. GPU und CPU teilen sich den RAM, ohne Daten hin- und herzukopieren. Das macht LLMs auf einem M3 MacBook deutlich schneller als auf einem Windows-Laptop mit vergleichbarem RAM, aber dedizierter GPU.

Praktische Orientierung:

HardwareRAMWelches ModellErlebnis
M1/M2 Air8 GBPhi-3 Mini, Qwen 3 (4B)Flüssig, kleine Aufgaben
M1/M2/M316 GBLlama 3.2 (8B), Mistral 7BSehr gut, mein Alltag
M2/M3 Pro24 GB+Llama 3.1 (13B)Excellent, kaum Wartezeit
M3 Max/Ultra32 GB+Beliebige ModelleNah an Cloud-Qualität

Auf meinem M3 Pro mit 18 GB RAM liefert Llama 3.2 (8B) in Q4_K_M-Quantisierung etwa 30-40 Tokens pro Sekunde. Das ist spürbar langsamer als ChatGPT, aber für Offline-Arbeit vollkommen akzeptabel.

Q4_K_M Quantisierung: 75% weniger RAM bei minimaler Qualitätseinbuße

Modelle werden standardmäßig in reduzierter Präzision ausgeliefert, um Speicher zu sparen. Q4_K_M ist der aktuelle Community-Konsens für den Sweet Spot.

Was steckt dahinter? Q4_K_M verwendet 4-Bit-Gewichte mit gemischter Präzision: Attention-Schichten bleiben bei 6-Bit (weil sie qualitätskritisch sind), andere Layer werden auf 4-Bit reduziert. Das Ergebnis ist ein Modell, das auf Qualitäts-Benchmarks 97-99% der Originalqualität (FP16) erreicht, aber nur etwa 70% weniger Speicher braucht.

Ein konkretes Beispiel: Mistral 7B in FP16 wäre ca. 13 GB. In Q4_K_M sind es etwa 4 GB. Für die meisten Alltagsaufgaben merkst du keinen Unterschied.

Ollama wählt automatisch eine sinnvolle Quantisierung, wenn du ollama pull mistral ausführst. Du musst dir über diese Details keine Gedanken machen, außer wenn du Modelle manuell von Hugging Face herunterlädst.

Break-Even vs. API-Kosten: Wann lohnt sich die Umstellung rechnerisch?

Ehrliche Antwort: Bei moderatem Einsatz lohnt sich lokale KI finanziell weniger als gedacht.

GPT-4o mini kostet über die API etwa $0,15 pro Million Input-Tokens. Für 1.000 kurze Prompts täglich wären das bei normalen Freelancer-Volumen kaum mehr als 10-15 Euro im Monat. Das ist kaum beängstigend.

Wo lokale KI wirtschaftlich Sinn macht:

  • Über 10.000 Abfragen täglich (dann werden API-Kosten real)
  • Du nutzt bereits einen Hetzner-Server für andere Dinge und kannst Ollama dort mitlaufen lassen
  • Datenschutz ist dein Hauptargument, nicht die Kosten

Für die meisten Freelancer gilt: Lokal wegen DSGVO, nicht wegen Geld. Das sollte auch das ehrliche Argument sein.

Ollama in meinen Workflow integrieren: n8n, LM Studio-Chat und Cursor-Integration

Ollama als lokaler API-Endpoint in n8n-Workflows

Das ist für mich die spannendste Anwendung. Ich nutze n8n für Automatisierungen (mehr dazu im n8n vs. Make-Vergleich), und Ollama lässt sich als lokaler KI-Endpoint direkt einbinden.

Konkret geht das so: Ollama stellt eine REST-API auf localhost:11434 bereit. In n8n wählst du den "Ollama Model" Node und trägst als URL http://localhost:11434 ein. Wenn beide auf demselben Rechner laufen, funktioniert das sofort.

Was damit möglich ist: automatisierte Textzusammenfassungen, Kategorisierungen von Eingaben, Template-Befüllungen mit eigenen Kundendaten - alles lokal, ohne externen API-Aufruf. Für Workflows, die regelmäßig mit sensiblen Kundendaten arbeiten, ein echter Vorteil.

Ein Einschränkung: Ollama unterstützt in n8n aktuell kein vollständiges Tool-Calling für AI-Agents. Für komplexe Agenten-Workflows brauchst du trotzdem Cloud-Modelle. Für einfache Chains und Summarization-Pipelines reicht es aber.

LM Studio Chat: Wie ich sensible Kundenprojekte lokal bearbeite

Wenn ich kein Terminal aufmachen will (was ehrlich gesagt öfter vorkommt als ich zugeben möchte), nutze ich LM Studio als Chat-Interface. Modell laden, Konversation starten, Kundendokument einfügen, Analyse lesen.

Der Workflow ist fast identisch zu ChatGPT, nur eben vollständig offline. LM Studio zeigt auch Token-Geschwindigkeit und RAM-Auslastung in Echtzeit an, was ich praktisch finde.

Mein ehrliches Fazit: Wann lokale KI sich lohnt - und wann nicht

Lohnt sich definitiv, wenn:

  • Du regelmäßig mit Kundendaten, NDAs oder sensiblen Dokumenten arbeitest
  • Du ein MacBook mit 16 GB+ RAM hast (dann kostet es dich nichts extra)
  • Du n8n-Workflows betreibst, die Datenschutz benötigen
  • Du nach dem EU AI Act mehr Kontrolle über deine KI-Verarbeitung haben willst

Lohnt sich (noch) nicht, wenn:

  • Du immer aktuelle Informationen und Internetsuche brauchst
  • Deine Aufgaben viel Reasoning und langen Kontext erfordern
  • Du ein MacBook mit 8 GB RAM hast und Phi-3 Mini qualitativ nicht ausreicht
  • Du KI-gestützte Bildanalyse oder multimodale Aufgaben machst

Mein persönlicher Hybrid: Ollama für alles mit Kundendaten und sensiblen Texten. Claude Pro oder ChatGPT für Recherche, komplexes Schreiben und aktuelle Informationen. Das Beste aus beiden Welten, ohne unnötige Rechtsunsicherheit.

Wie NS-Mitglieder über den Trade-off zwischen Datenschutz und KI-Leistung diskutieren

An der Network School ist die Frage "Cloud vs. Lokal" eine der lebhaftesten Debatten, die ich mitgemacht habe. Die Community besteht aus Entwicklern, Designern, Gründern und Freelancern, die alle einen anderen Ansatz haben.

Ein Entwickler aus dem letzten Batch hat Ollama auf einem Hetzner-Server aufgesetzt und allen Mitgliedern einen gemeinsamen API-Endpoint zur Verfügung gestellt. Kein Prompt geht an OpenAI, alles bleibt in der EU-Cloud. Ein anderes Mitglied wiederum argumentiert, dass für seinen Use Case (tägliche Recherchen, aktuelle Nachrichten) lokale Modelle schlicht nicht gut genug sind.

Was ich daraus mitgenommen habe: Es gibt keine universelle Antwort. Aber wer Kundendaten verarbeitet, sollte sich die Frage stellen. Und die Antwort "ich habe es einfach nie überprüft" ist nach dem EU AI Act keine akzeptable Antwort mehr.

Wenn du diese Art von Gesprächen gerne in einer Community führen willst, schau dir die Network School an. Bewirb dich hier und spare 25%.


Schnellstart-Checkliste: Ollama einrichten in 5 Minuten

  1. Download von ollama.com (Mac: .dmg, Linux: curl-Script)
  2. Terminal öffnen, ollama run llama3.2 eingeben
  3. Beim ersten Start: Modell wird automatisch geladen (3-5 GB)
  4. Warten, bis der Chat-Prompt erscheint
  5. Testen mit: "Fasse diesen Text zusammen: [Text einfügen]"
  6. Fertig. Kein API-Key, keine Kosten, keine Datenweitergabe.

Optional: ollama pull mistral oder ollama pull qwen3:4b für andere Modelle.

Für eine grafische Oberfläche: LM Studio herunterladen, gleiches Prinzip mit Klicks statt Terminal.


Einige Links sind Affiliate-Links. Dir entstehen keine Mehrkosten.

Newsletter

Erhalte wöchentlich die besten Tipps für digitale Nomaden

Kein Spam, kein Bullshit. Nur das, was wirklich hilft, wenn du ortsunabhängig arbeiten willst.

Interesse?

Bewirb dich jetzt

Bewirb dich über diesen Link und spare 25% auf deinen ersten Monat.

Jetzt bewerben. 25% Rabatt sichern