How-To: Apertus aus Hugging Face On-Premises deployen
Viele Unternehmen und Behörden möchten Sprachmodelle wie Apertus nicht nur in der Cloud nutzen, sondern selbst hosten. Das geschieht entweder innerhalb einer eigenen Cloud-Subscription (Public Cloud) oder vollständig On-Premises (Private Cloud).
Gründe dafür sind strenger Datenschutz, der Schutz geistigen Eigentums und die Notwendigkeit, sensible oder vertrauliche Daten unter voller Kontrolle zu behalten.
Ein bewährter Ansatz ist ein zweistufiges Vorgehen:
Schritt 1: Schnelles Prototyping
Mit containerisierten Deployments (z. B. vLLM) und Infrastructure as Code wird zunächst ein funktionsfähiger Prototyp erstellt. So lassen sich Use Cases rasch validieren.
Schritt 2: Integration in die IT-Landschaft
Danach folgt die Anbindung an Identity- und Access-Management-Systeme wie Microsoft Entra ID oder SailPoint IIQ, die Integration von Monitoring und Logging sowie Sicherheitsoptimierungen. Der Prototyp wird so in eine produktionsreife Lösung überführt.
Für skalierbare Setups eignet sich Red Hat OpenShift AI, das LLMs effizient über hybride Cloud-Umgebungen hinweg betreiben kann. Die Plattform unterstützt verschiedene Frameworks, bringt integrierte Compliance-Funktionen mit und lässt sich flexibel anpassen (GitHub: rh-aiservices-bu/llm-on-openshift).
Organisationen mit besonders hohen Sicherheitsanforderungen können Apertus auch vollständig On-Premises betreiben. Die Modellgewichte stehen auf Hugging Face zur Verfügung und können auf eigener GPU-Infrastruktur gehostet werden.
Für einen schnellen Start bietet das Swiss LLM Quickstart Repository konkrete Skripte und Beispiele. Es richtet sich zwar primär an Azure-Umgebungen, die enthaltenen Anleitungen lassen sich aber auch als Vorlage für On-Premises-Deployments verwenden (Azure Samples – Swiss LLM Quickstart).
Die praktische Umsetzung lässt sich in vier Schritten zusammenfassen:
- Modellgewichte herunterladen: direkt von Hugging Face oder aus dem Quickstart-Repo.
- Containerisierung einsetzen: mit Docker oder Kubernetes sowie Inferenz-Bibliotheken wie vLLM für Effizienz und Skalierung.
- Deployment-Umgebung wählen: lokal, hybrid mit OpenShift AI oder in einer privaten Cloud-Subscription.
- Integration und Betrieb sichern: durch IAM-Anbindung, Monitoring & Logging sowie Frontend-Integration.
Vorteile des Self-Hostings:
Volle Datenhoheit, geopolitische Unabhängigkeit durch Hosting in Schweizer Rechenzentren, Flexibilität und Wiederverwendbarkeit dank containerisierter Deployments sowie Compliance-Sicherheit für streng regulierte Branchen.
So wird Apertus zu einem zentralen Baustein für souveräne und vertrauenswürdige KI in der Schweiz.