Souveräne KI

Fallstudie: MeinDienstplan hat nachgerechnet

11.06.2026

Cloud-KI-Preise gehen davon aus, dass Sie niemals nachrechnen.

Der Aufbau

MeinDienstplan betreibt eine KI-Forschungspipeline: Agenten, die ausschwärmen, Informationen sammeln und zu brauchbaren Antworten synthetisieren. Die Art von Arbeitslast, die auf einer Pro-Anfrage-Basis billig aussieht, bis man sie mit dem tatsächlichen Volumen multipliziert.

Sie haben diese Pipeline über die Perplexity-API betrieben. Es hat funktioniert. Die Ergebnisse waren gut. Aber jede Forschungsanfrage war ein gebührenpflichtiger Aufruf der Infrastruktur eines anderen Anbieters, bepreist zu dessen Bedingungen, und die Rechnung wuchs mit der Nutzung, so wie es bei Cloud-Rechnungen immer der Fall ist.

Also haben sie die Zahlen für eine andere Frage durchgerechnet: Was würde es kosten, dieselbe Arbeitslast auf ihrer eigenen Hardware laufen zu lassen?

Das Ergebnis

Dieselbe Forschungsaufgabe. Dieselbe Ausgabequalität. Zwei völlig unterschiedliche Preisschilder.

Perplexity-API: € 2,00 pro Anfrage. On-Premise mit Xinity: € 0,06 pro Anfrage.

Das ist eine Reduzierung um 97 %. Keine Prognose, kein „bis zu“-Marketingversprechen, sondern die gemessenen Kosten für dieselbe Aufgabe, die auf zwei Arten ausgeführt wurde.

Die Migration selbst war fast unspektakulär: Drei Umgebungsvariablen wurden geändert, null Codeänderungen an der Anwendung. Die Pipeline merkte keinen Unterschied. Das Finanzteam schon.

Was tatsächlich läuft

Dies war kein Downgrade auf ein schwächeres Modell, um Einsparungen hinterherzujagen. MeinDienstplan hat die Arbeitslast auf Qwen 3.6 35B (A3) verlagert, das lokal auf einem ASUS Ascent GX10 AI Supercomputer läuft, der über Xinity in den eigenen Räumlichkeiten bereitgestellt wurde. Ein fähiges Modell, echte Hardware, die im eigenen Gebäude steht und nicht in der Region eines Hyperscalers.

Es geht nicht darum, dass On-Premise im Abstrakten billiger ist. Es geht darum, dass bei einer repetitiven KI-Arbeitslast mit hohem Volumen – genau dem, was KI-Agenten erzeugen – die Wirtschaftlichkeit von gebührenpflichtigen Cloud-APIs pro Anfrage keinen Sinn mehr macht, lange bevor die meisten Teams überhaupt nachrechnen. Die Cloud-Preise sind für den Fall gemacht, dass man nie nachrechnet. Sobald man es tut, kreuzen sich die Kurven.

Warum das über die Rechnung hinaus wichtig ist

Die Kosten stehen im Vordergrund, aber das ist nicht der einzige Grund, warum dieser Schritt sinnvoll ist, und für viele europäische Unternehmen ist es nicht einmal der wichtigste.

Als die Forschungspipeline von MeinDienstplan über eine Cloud-API lief, verließ jede Anfrage das Haus. Für ein Unternehmen im Bereich Workforce-Management, das Mitarbeiter- und Dienstplandaten verarbeitet, ist das keine neutrale Tatsache. Es ist eine Frage der Datensouveränität und der DSGVO, die nicht verschwindet, egal wie gut die API ist. Wenn das Modell On-Premise läuft, verlassen die Daten niemals das Haus. Es muss kein Drittlandstransfer gerechtfertigt werden, kein Auftragsverarbeitungsvertrag herhalten und es stellt sich nicht die Frage, in welche Gerichtsbarkeit die Anfrage fällt. Die Daten bleiben dort, wo das Unternehmen sie tatsächlich kontrollieren kann.

Das ist der leise Teil des Arguments für souveräne KI. Die Kosteneinsparungen erregen Aufmerksamkeit, weil sie dramatisch sind. Aber der strukturelle Grund, warum On-Premise bei regulierten und datensensiblen Unternehmen gewinnt, ist, dass es die gesamte Kategorie der Fragen wie „Wo sind unsere Daten gelandet?“ überflüssig macht, indem sie einfach nirgendwohin gesendet werden.

Wenn Ihr Unternehmen On-Premise gehen muss

Wenn Sie das lesen, weil Ihr eigenes Unternehmen eine DSGVO-konforme KI-Infrastruktur benötigt, Daten, die in Ihrem Gebäude bleiben, auf von Ihnen kontrollierten Modellen laufen und das zu vorhersehbaren Kosten, dann ist das genau das Problem, das hier gelöst wird. Die Migration von MeinDienstplan ist ein Beispiel für ein Muster: Nehmen Sie eine Arbeitslast, die Sie derzeit von einer Cloud-API mieten, lassen Sie sie auf eigener Hardware laufen und beobachten Sie, wie gleichzeitig die Rechnung und das Compliance-Risiko sinken.

Sie müssen Ihre Software-Architektur nicht neu aufbauen, um herauszufinden, ob die Rechnung für Sie aufgeht. Die meisten Teams sind überrascht, wie wenig sich an der Anwendung ändert und wie viel an der Wirtschaftlichkeit.

Xinity liefert souveräne On-Premise-KI-Infrastruktur für europäische Unternehmen: die Hardware, die Open-Source-Software und den Support, um generative KI vollständig auf Ihren eigenen Servern zu betreiben, damit Ihre Daten Ihr Gebäude nie verlassen.