Auch wenn die Big 5 Cloud Provider laut Statista den Cloud Hosting Markt in 2023 dominieren, sind große Namen für den Aufbau einer robusten DevOps Infrastruktur für AI oder Machine Learning, auch MLOps genannt, nicht alles.
Besonders beim Aufbau von Services für eigene KI-Modelle spielen oft andere Faktoren eine Rolle, und nicht nur die reine Unternehmensgröße der Zulieferer. Das dürfte Ihnen bereits aufgefallen sein, wenn Sie sich mit Amazon SageMaker beschäftigt haben und mögliche Alternativen suchen.
Wofür eignet sich Amazon SageMaker?
Als cloud-basierte Machine Learning Plattform erlaubt Amazon SageMaker Entwicklern und Data Scientists das Erstellen, Training sowie die Implementierung von KI-Modellen. Das Interface soll dabei grundlegende Prozesse visualisieren und somit beschleunigen – angefangen bei der Datenaufbereitung bis hin zum automatisierten Betrieb erstellter oder vorgefertigter Algorithmen. Der Webservice ist vollständig in den Amazon-Kosmos eingebettet und interagiert daher bevorzugt mit anderen AWS-Tools wie Amazon Kinesis und den hauseigenen Datenbanken.

Benutzer, die SageMaker verwenden möchten, haben spezifische Anforderungen und Erwartungen an die Plattform, insbesondere im Vergleich zu alternativen Lösungen wie dem Aufbau einer eigenen Infrastruktur. Basierend auf der bereitgestellten Liste sind hier die Anforderungen, die solche Benutzer haben könnten:
- Auto-Scaling: Benutzer benötigen eine automatische Skalierung, um Instanzen entsprechend der aktuellen Last hinzuzufügen. Sie erwarten, dass dies in einer effizienten und kosteneffektiven Weise geschieht, ohne den Aufwand und die Kosten für das Aufbauen und Warten einer solchen Infrastruktur.
- Multi Model Server: Es besteht das Bedürfnis, mehrere Endpunkte zusammenzuführen, um die vorhandene Infrastruktur voll auszuschöpfen. Auf eigenen Severn ist dies nicht einfach zu implementieren.
- Versioning und Datenmanagement: Eine klare und effiziente Modellversionierung sowie die Verwaltung des zugehörigen Datenquellcodes sind entscheidend. Auf eigenen Servern könnte dies komplizierter und weniger intuitiv sein.
- Modell-Trainingszyklus: Ein automatischer Trainingszyklus, der auf den empfangenen Daten basiert, ist wünschenswert. Auf SageMaker ist dies einfacher zu implementieren als auf eigener Infrastruktur.
- Inkrementelles Lernen oder Transferlernen: Für fortgeschrittene ML-Techniken wie inkrementelles Lernen oder Transferlernen ist eine effiziente und kostengünstige Lösung erforderlich, die auf eigener Infrastruktur schwieriger zu implementieren und zu warten sein könnte.
- Elastische Inferenz: Eine schnelle Modellleistung insbesondere für Deep-Learning-Aufgaben bei gleichzeitiger Reduzierung der Latenz ist erforderlich. Der Aufbau und die Wartung eigener Infrastruktur könnte in Bezug auf Entwicklung und Betriebskosten teurer sein.
- DevOps-Integration: Eine einfache und nahtlose Integration in bestehende DevOps-Workflows ist notwendig. Während SageMaker eine integrierte CLI-Funktionalität bietet, müsste diese Funktion für die eigene Infrastruktur eigenständig entwickelt werden.
Abschließend sollten Benutzer die Kosten von SageMaker und vergleichbaren Add-On Services berücksichtigen, die meist 20 % bis 40 % höhere Kosten verursachen als eine einfache Infrastruktur mit gleichen Rechenkapazitäten, siehe Reddit oder StackOverflow.
Es wird deutlich, wie Amazon in nahezu jedem Einzelschritt eines Machine Learning Projekts auf eigene Tools und Funktionen setzt. Die Nutzung ergänzender Services ist in vielen Fällen keine Ausnahme. Nicht zuletzt ergeben sich daraus einige Nachteile für Unternehmen.
Amazon SageMaker eignet sich für erfahrene Analysten und Entwickler, die umfangreiche KI-Projekte fast ausschließlich im AWS-Kosmos durchführen möchten.
Nachteile von Amazon SageMaker
- Komplexität: Die Plattform richtet sich ausschließlich an professionelle Entwickler und Data Scientists. Entsprechend unübersichtlich ist auch das User Interface aufgebaut, das zudem für viele Prozesse die Eingabe eigenen Entwicklungscodes erfordert. Selbst vorgefertigte Machine Learning Modelle benötigen in der Regel mittlere bis große Datenmengen. Deren Aufbereitung erweist sich auch mit den integrierten Tools als kompliziert. SageMaker ist daher für den Einstieg und kleine Prozesse nicht geeignet.
- Auf der anderen Seite kann das Interface für Entwickler aber auch technisch einengend sein, wenn die Anforderungen hochindividuell sind. Das betrifft beispielsweise die Integration bereits bestehender Machine Learning Modelle oder die umfangreiche Datenmigration aus Legacy Systemen oder Fremdanwendungen. Auch ein Betrieb On-Premises über eigene Server ist nicht möglich.
- Stattdessen ist der Nutzer stark von Services innerhalb der Amazon Cloud abhängig – durch diese wird schließlich der Profit generiert. Bereits in einer zweimonatigen kostenlosen Testphase wird diese Abhängigkeit gefestigt, sodass sogar eine anschließende Entscheidung gegen die Software aufgrund infrastruktureller Anpassungen kosten- und zeitaufwendig werden kann.
- Kosten: Amazon wirbt mit einem nutzungsabhängigen Preismodell, das keine Grundgebühren vorsieht. Die Kosten richten sich nach der Zahl der Machine Learning Modelle, deren Einsatz, dem verwendeten (Arbeits-)speicher, der Trainingsdauer und der Datenmenge – also quasi nach jedem Mausklick. In Anbetracht dessen, dass die Plattform nur für einen großen Nutzungsumfang geeignet ist, sind hohe Kosten vorprogrammiert. Dazu tragen auch die rechenintensiven GPU-Instanzen bei. Die Unübersichtlichkeit des Preismodells lässt sich hier nachvollziehen.
SageMaker und die Zukunft der Automatisierung
Die meisten Mitarbeiter in Unternehmen sind keine Entwickler. Genau genommen fehlen in Deutschland laut Bitkom nach wie vor 137.000 IT-Fachkräfte. Automatisierung und Erkenntnisgewinn durch Machine Learning sind allerdings längst zu wichtigen Erfolgsfaktoren geworden. Sprachmodelle wie ChatGPT haben gezeigt, dass auch eine Nutzung durch nicht-professionelle Anwender möglich ist. Der Zugang zu Künstlicher Intelligenz steht aktuell vor einer Demokratisierung, die Unternehmen, die nicht partizipieren, benachteiligt zurücklassen wird. Es ist also wichtig, entsprechende Alternativen zu kennen, wenn für Lösungen wie Amazon SageMaker das Knowhow oder die Ressourcen fehlen.
Am meisten profitieren Unternehmen anfangs von der Automatisierung besonders häufiger und kleiner Prozesse, die sich gerne zu großen Zeitfressern aufsummieren. Das betrifft beispielsweise die Bearbeitung von E-Mail-Anhängen, Rechnungen, Lieferscheinen oder Zahlungsavisen. Entsprechende Software auf Basis von Machine Learning muss unkompliziert in der Integration und Handhabung, aber dennoch flexibel in ihrer Anwendbarkeit sein. Auch der Wunsch nach einem anderen Funktionsumfang oder On-Premises-Nutzung kann zur Suche nach Amazon SageMaker Alternativen motivieren.
Automatisierung beginnt bei kleinen, repetitiven Standardprozessen. Ein wichtiges Beispiel, das in jedem Unternehmen auftaucht, ist das Dokumentenmanagement.
Alternativen und Ergänzungen von Amazon
Um fehlende Kompetenzen von SageMaker auszugleichen und eine möglichst umfassende Nutzung der AWS Cloud sicherzustellen, bietet Amazon unzählige weitere Services an. Besonders relevant sind folgende:
Textract
Die Notwendigkeit automatisierter Analyse von Dokumenten ist auch für Amazon kein Neuland. Zu diesem Zweck wird die auf OCR (Optische Zeichenerkennung) basierende Software Textract angeboten. Das Tool fokussiert sich auf die Extraktion von Text und Daten und ist daher ausschließlich für die Dokumentenanalyse geeignet. Darüber hinaus bietet es nur einen geringen Funktionsumfang, der sich weitgehend auf Datenextraktion aus verschiedenen Formularen und einen manuellen Kontroll-Workflow beschränkt.
Textract stellt in Bezug auf SageMaker also eine kleine Ergänzung zur Datenextraktion aus Dokumenten in der AWS Cloud dar. Für Anwender, die sich lediglich mit OCR-basierter Analyse einfacher Dokumente beschäftigen, ist die Software eine kostengünstigere Alternative. Eine detaillierte Analyse findet sich hier.
Amazon Forecast
Amazon Forecast ist ein vollständig verwalteter Prognosedienst, der auf Machine Learning basiert und von Amazon Web Services (AWS) angeboten wird. Dieser Dienst ermöglicht es den Nutzern, präzise Vorhersagen über Zeitreihendaten zu erstellen, ohne ML-Expertise zu benötigen. Es nutzt dieselben Technologien, die auch Amazon.com für seine eigenen Prognoseanforderungen verwendet. Mit Amazon Forecast können Benutzer jedoch nur Zeitreihendaten hochladen, die Prognosequalität von verschiedenen Algorithmen bewerten und die besten Modelle zur Vorhersage zukünftiger Werte verwenden.
Im Zusammenhang mit Amazon SageMaker kann Amazon Forecast als ergänzende Lösung betrachtet werden. Während SageMaker eine umfassende Plattform für die Entwicklung, das Training und die Bereitstellung von Machine-Learning-Modellen bietet, ist Forecast speziell auf Prognoseanwendungen ausgerichtet und bietet einen einfachen Workflow für solche Szenarien.
Beide Dienste ergänzen sich gut, vor allem wenn Unternehmen sowohl maßgeschneiderte ML-Modelle als auch spezialisierte Vorhersagen für Zeitreihendaten benötigen.
Amazon SageMaker kostenlos replizieren
Mit Open-Source-Tools kann man eine SageMaker-ähnliche Umgebung auf eigener Infrastruktur realisieren. Kubernetes dient hierbei als Grundlage für Container-Orchestrierung, während Kubeflow das Machine Learning Lifecycle Management optimiert. JupyterHub ermöglicht die Nutzung von interaktiven Notebooks und MinIO oder Ceph können als skalierbare Datenspeicherlösungen eingesetzt werden.
Die Flexibilität und Kontrolle, die Open-Source-Tools bieten, sind ihre größten Vorteile gegenüber integrierten Lösungen wie SageMaker. Trotz des höheren initialen Einrichtungsaufwands bieten Tools wie TensorFlow, PyTorch und Scikit-Learn tiefe Einblicke und Anpassungsmöglichkeiten für ML-Modelle. Zudem unterstützen Monitoring-Tools wie Prometheus und Grafana die Überwachung des Systems und sorgen für Transparenz während des gesamten ML-Prozesses. Insgesamt erlauben diese Tools die Erstellung einer individuellen und vollständig angepassten ML-Plattform.
Gerne unterstützen wir Sie beim Aufbau einer solchen Infrastruktur. Weitere Dokumentation finden Sie von Berkeley oder in folgendem technischen Medium Post.
–> Kontaktieren Sie uns jetzt für ein kostenfreies Erstgespräch.
Kommerzielle Anbieter – Wer macht das Rennen der Top 5?
Amazon ist bei weitem nicht der einzige Anbieter, der Unternehmen durch das Potenzial von Machine Learning weiterbringt. Bei der Auswahl gilt es, die Anforderungen genau mit dem jeweiligen Funktionsumfang abzugleichen.
Als SageMaker Alternative eignen sich zum Beispiel die folgenden 5 Softwares:
- Konfuzio
KI-basiertes All-in-one-Werkzeug für automatisiertes Dokumentenmanagement. Ideal für den Ersteinstieg.
- Binder
Schlanke Lösung für das das Hosting von interaktiven Jupyter-Notebooks in der Cloud.
- Dataiku
KI-Komplettlösung für umfangreiche Analysen und datengetriebenen Erkenntnisgewinn. Open Source.
- IBM Watson Studio
SageMaker-ähnliche Cloud Plattform, die aber auch weniger erfahrenen Data Scientists ohne Programmierkenntnisse den Einstieg erleichtert.
- Azure Machine Learning
Das leichter nutzbare Pendant von Microsoft für Machine Learning in der Azure Cloud.

Konfuzio
Konfuzio ist eine leistungsstarke KI Plattform. Sie gibt Zugriff auf diverse Open Source and Close Source Modelle wie OCR, Computer Vision und natürliche Sprachverarbeitung (NLP). Das ermöglicht den Betrieb großer unterschiedlicher KI Modelle und die Interaktion durch einheitliche und wohl dokumentierte technische Schnittstellen. Dadurch ist Konfuzio in entsprechenden Anwendungsfällen eine potente Alternative zu SageMaker, kann aber auch als Ergänzung dienen.

Aus dem Funktionsumfang ergeben sich im Vergleich zu SageMaker folgende Vorteile:
- Nutzung in der Cloud und On-Premises möglich
- Für jeden Kenntnisstand geeignet: intuitives Interface und Source Code Module sowie API & SDK-Entwicklung
- Umfangreiche Integrationsmöglichkeiten: REST API, Google Docs, Microsoft Office, Airtable sowie diverse ERP-, CRM- oder RPA-Systeme
- Auto-Scaling: Konfzio ermöglicht automatische Skalierung, um Benutzern bei erhöhter Last zusätzliche Instanzen bereitzustellen, ohne die Notwendigkeit und Kosten der Infrastrukturpflege.
- Multi Model Server: Mit Konfuzio können Nutzer mehrere Endpunkte effizient kombinieren, um ihre Infrastruktur optimal zu nutzen, was auf eigenen Servern eine Herausforderung darstellen könnte.
- Versioning und Datenmanagement: Konfzio bietet klare Modellversionierung und effizientes Datenmanagement, wodurch Benutzer den Überblick über verschiedene Modelle und deren Datenquellen behalten.
- Modell-Trainingszyklus: Konfzio erleichtert den automatischen Trainingszyklus basierend auf den empfangenen Daten, wodurch die Implementierung vereinfacht wird.
- Inkrementelles Lernen oder Transferlernen: Für fortgeschrittene Techniken bietet Konfuzio Lösungen, die auf eigener Infrastruktur sonst schwer umzusetzen wären.
- Elastische Inferenz: Konfzio stellt sicher, dass Modelle besonders bei Deep Learning-Aufgaben schnell arbeiten und die Latenz minimiert wird.
- DevOps-Integration: Schließlich ermöglicht Konfuzio eine reibungslose Integration in DevOps-Workflows oder MLOps-Workflows, sodass Benutzer nicht von Grund auf eigene Integrationstools entwickeln müssen.
Konfuzio kann also genutzt werden, um KI Modelle zu adjustieren, trainieren und zu überwachen. In ihrem Anwendungsbereich übertrifft Konfuzio dabei entsprechende Einzelmodule namenhafter Softwareanbieter und lässt in Sachen Flexibilität und Performance auch Amazon Textract hinter sich – wir berichteten.
Binder
…ist auf das Hosting von interaktiven Jupyter-Notebooks in der Cloud spezialisiert.
- Funktionen: Direktes Teilen von Jupyter-Notebooks aus GitHub-Repositories, kein Setup erforderlich, Docker-Unterstützung für Umgebungsreplikation, Open-Source-Plattform für interaktive Computing-Umgebungen.
- Pro: Einfacher Einstieg, ideal für Data Scientists und Forscher, ermöglicht das Teilen und die Zusammenarbeit an Notebooks ohne jegliche Installation, komplett Open Source, bietet Flexibilität durch Docker-Unterstützung.
- Contra: Nicht speziell auf Machine Learning-Workflow-Optimierung ausgerichtet, könnte in Bezug auf Skalierbarkeit und fortgeschrittene ML-Deployment-Features hinter SageMaker zurückbleiben.
Dataiku
…eignet sich für groß angelegte Datenanalysen.
- Funktionen: Visueller Workflow zur Erstellung von Data Pipelines, Connectors für gängige Datenquellen, Datentransformer, Visualisierungstools, AutoML.
- Pro: Zentrale Plattform für große Datenmengen, viele Analyse- und Visualisierungsmöglichkeiten, Open Source.
- Contra: Komplexes User Interface, kein optimaler Support.
IBM Watson Studio
…ist Amazon SageMaker in seinem Leistungsspektrum besonders ähnlich.
- Funktionen: Eigene Data AI Plattform, AutoAI, Modelldrift, erklärbare KI, Model Risk Management.
- Pro: Verschiedene Implementierungsmöglichkeiten, Cloud/On-Premises-Hybrid möglich, umfangreiche Kollaborationsmöglichkeiten für Teams.
- Contra: Potenziell hohe Kosten, erfordert viel technisches Know-how von Data Scientists.
Azure Machine Learning
…ist die GUI-basierte Entwicklungsumgebung von Microsoft.
- Funktionen: mehrere integrierte Frameworks wie PyTorch oder Tensorflow, Drag-and-Drop Designer für Datenaufbereitung und Modelltraining, AutoML, Managed Endpoints.
- Pro: Große Auswahl integrierter Frameworks und Services, übersichtliches Interface, kein Code notwendig.
- Contra: Limitierte Zahl an Modellen pro Workflow, Vendor Lock-in, großer Datenmengen.
Fazit
Aufgrund hoher Komplexität, unhandlicher Integration und starker Abhängigkeit von Amazon ist SageMaker für viele Unternehmen nicht geeignet. Auch die Kosten können bei KI-Experimenten ohne direkten Return On Investment leicht in die Höhe schnellen.
Gängige Alternativen von anderen Anbietern ermöglichen oftmals einen leichteren Zugang zu Machine Learning durch intuitivere Gestaltung des User Interfaces. So sind manche Lösungen sogar durch deutlich weniger technisch versierte Mitarbeiter und Data Scientists nutzbar. Für nahezu jedes Unternehmen eignet sich hingegen die flexible Dokumenten-KI Konfuzio, die Anwendern jeglichen Kenntnisstands den Einstieg in die Welt des maschinellen Lernens ermöglicht.