Clockwork.io fĂŒhrt eine neue Klasse der Fehlertoleranz ein, um die durch AusfĂ€lle verursachte Verschwendung von GPU-Leistung beim KI-Training zu beenden
11.03.2026 - 14:01:00 | irw-press.comDie neue TorchPass-Lösung bewÀltigt eine millionenschwere Herausforderung im Bereich der KI-Infrastruktur und nutzt Live-GPU-Migration, um groà angelegte KI-Trainings trotz HardwareausfÀllen fortzusetzen, anstatt kostspielige Neustarts zu erzwingen
PALO ALTO, Kalifornien / ACCESS Newswire / 10. MĂ€rz 2026 / Clockwork.io, der MarktfĂŒhrer im Bereich Software-Driven AI Fabricsâą - einer programmierbaren, herstellerneutralen Software-Layer, die groĂ angelegte GPU-Cluster fĂŒr Echtzeit-Beobachtbarkeit, Fehlertoleranz und deterministische Leistung optimiert â gab heute die allgemeine VerfĂŒgbarkeit von TorchPass Workload Fault Tolerance bekannt. Diese neue Klasse softwaregesteuerter Fehlertoleranz beseitigt einen der kostspieligsten Ausfallmodi beim groĂ angelegten KI-Training: katastrophale Job-Neustarts aufgrund von Infrastrukturfehlern.
TorchPass wird als Kernfunktion der Clockwork.io FleetIQâą-Plattform bereitgestellt und wendet die Prinzipien Software-Driven AI Fabrics auf verteiltes Training an. Dabei nutzt es Live-GPU-Migration, um Workloads auch bei GPU-AusfĂ€llen, Netzwerkstörungen, Treiberfehlern und sogar vollstĂ€ndigen Node-AbstĂŒrzen weiterlaufen zu lassen â ohne Neustarts an Checkpoints oder Verlust des Fortschritts.
âUnternehmen investieren Milliarden in Chips der nĂ€chsten Generation, doch die Kosten fĂŒr die AusfĂŒhrung verteilter KI-Jobs sind nach wie vor extrem hoch, da das Ăkosystem AusfĂ€lle als unvermeidbar akzeptiert hatâ, so Suresh Vasudevan, CEO von Clockwork.io. âWir haben TorchPass entwickelt, um diese PrĂ€misse grundlegend zu widerlegen. Anstatt AusfĂ€lle als unvermeidbar zu betrachten und nachtrĂ€glich neu zu starten, macht TorchPass Infrastrukturfehler fĂŒr die Workload unsichtbar â das Training wird trotz AusfĂ€llen transparent in der Software fortgesetzt. Bei einer typischen Bereitstellung mit 2.048 GPUs bedeutet dies eine Einsparung von ĂŒber 6 Millionen $ pro Jahr an Rechenleistung. Genau dafĂŒr wurde unser softwaregesteuerter KI-Fabric-Ansatz entwickelt: eine fehlertolerante KI-Infrastruktur.â
Dylan Patel, GrĂŒnder und CEO von SemiAnalysis, stimmte zu, dass groĂ angelegte Trainingsaufgaben durch Unterbrechungen eingeschrĂ€nkt werden.
âDa Blackwell-Cluster mit einer NVL72-DomĂ€ne eingefĂŒhrt werden und wir mit der NVL576-DomĂ€ne von Rubin Ultra in die Zukunft blicken, ist die Vorstellung, dass ein einziger GPU-Fehler oder eine Netzwerkverbindung einen gesamten Lauf zum Erliegen bringen kann, völlig inakzeptabelâ, so Patel. âTorchPass löst eine groĂe Herausforderung hinsichtlich der ZuverlĂ€ssigkeit von Clustern: Es bietet transparentes Failover und Live-Workload-Migration, wodurch die MFU hoch bleibt, was wiederum zu einer besseren GPU-Wirtschaftlichkeit fĂŒhrt.â
Warum KI-Training in groĂem MaĂstab scheitert
Verteiltes KI-Training ist nach wie vor eine der fehleranfĂ€lligsten Workloads in modernen Infrastrukturen. Mit zunehmender ClustergröĂe steigt die AnfĂ€lligkeit stark an. Untersuchungen von Meta FAIR zeigen, dass die mittlere Zeit bis zum Ausfall in einem Cluster mit 1.024 GPUs auf 7,9 Stunden und bei 16.384 GPUs auf nur 1,8 Stunden sinkt. Das bedeutet, dass fĂŒr die meisten groĂen, auf KI fokussierten Unternehmen oder KI-Clouds ausfallbedingte Neustarts völlig unvermeidlich sind â was ein groĂes Hindernis fĂŒr die Skalierung der Auswirkungen von KI darstellt.
Jeder Ausfall zwingt Trainingsjobs dazu, zum letzten Checkpoint zurĂŒckzukehren, wodurch Minuten oder Stunden bereits geleisteter Arbeit verloren gehen und zusĂ€tzliche Zeit fĂŒr manuelle Eingriffe, die Neuzuweisung von Ressourcen und den Neustart des Trainings verschwendet wird. Diese Neustarts begrenzen stillschweigend die GPU-Auslastung, wodurch die ZuverlĂ€ssigkeit zu einem der gröĂten versteckten Kostenfaktoren in der KI-Infrastruktur wird.
TorchPass behebt dieses Problem, indem es kostspielige AusfĂ€lle von KI-Workloads proaktiv angeht und sie löst, bevor der Job gestoppt wird oder neu gestartet werden muss. TorchPass ist fĂŒr Unternehmen, die groĂe KI-Workloads und KI-Clouds betreiben, von entscheidender Bedeutung und verbessert die ZuverlĂ€ssigkeit von Workloads und die Clusterauslastung erheblich. FĂŒr KI-Clouds, die nun betroffene GPUs beheben können, wĂ€hrend der Trainingslauf wie geplant fortgesetzt wird, bedeutet dies bessere Kunden-SLAs und eine insgesamt bessere Wirtschaftlichkeit der KI-Cloud, wodurch sie ihre Margen besser schĂŒtzen und neue Modelle schneller bereitstellen können.
âDie Steuerung der Rechenleistung/-kapazitĂ€t in groĂen GPU-Clustern ist entscheidend, um sicherzustellen, dass wir unseren Kunden zuverlĂ€ssige KapazitĂ€ten bieten können. Mit TorchPass haben wir die UnterstĂŒtzung eines Unternehmens, das sich auf Ausfallsicherheit als Kernfunktion konzentriert: Es ersetzt jede einzelne ausgefallene GPU und sorgt dafĂŒr, dass der Rest des Jobs weiterlĂ€uft, anstatt dass ein kleines Problem Auswirkungen auf unseren gesamten Betrieb hatâ, so David Power, CTO von Nscale. âBei unserer Bewertung hat Live GPU Migration sowohl die LaufkontinuitĂ€t als auch den Durchsatz unter realen Fehlerbedingungen aufrechterhalten, was genau das ist, was man braucht, um eine vorhersehbare Trainingszeit und ein besseres Kundenerlebnis in groĂem MaĂstab zu erzielen.â
So funktioniert Live GPU Migration: ZuverlÀssigkeit ohne Neustart
TorchPass fĂŒhrt bei AusfĂ€llen eine transparente Migration der betroffenen Trainingsprozesse zu freien Ressourcen durch. TorchPass schlieĂt die Wiederherstellung in der Regel in etwa drei Minuten ab, wĂ€hrend der Trainingsprozess ohne Unterbrechung fortgesetzt wird.
Es unterstĂŒtzt die Ausfallsicherheit in drei Ausfallszenarien:
Ungeplante Migration, die plötzliche Ereignisse wie Kernel-AbstĂŒrze, StromausfĂ€lle oder GPU-Fehler durch die Rekonstruktion des Zustands aus fehlerfreien Replikaten behandeltPrĂ€ventive Migration, ausgelöst durch FrĂŒhwarnsignale wie steigende Temperaturen oder ECC-Speicherfehler, ermöglicht eine kontrollierte Migration vor einem schwerwiegenden AusfallGeplante Migration, die Wartungsarbeiten, Patches und die Neuverteilung der Arbeitslast ohne Unterbrechung des Trainings ermöglicht
Dieser Ansatz reduziert den Verlust an Trainingsfortschritt um 95 % und verkĂŒrzt die Ausfallzeit von etwa drei Stunden pro Tag auf weniger als zehn Minuten in einem Cluster mit 1.024 GPUs.
Jordan Nanos, Mitglied des technischen Stabs und Hauptautor des unabhĂ€ngigen Benchmarks von ClusterMAX-SemiAnalysis fĂŒr groĂ angelegtes KI-Training, hat Clockwork.io TorchPass einem Stresstest unterzogen und festgestellt, dass es bei groĂ angelegten verteilten Trainings eine hervorragende Leistung und Effizienz bietet, wodurch Benutzer den Checkpointing-Overhead beim Training reduzieren können. Er teilte die folgenden Ergebnisse mit:
âIn unseren Tests lieferte Clockwork.io TorchPass die schnellste und effizienteste fehlertolerante Leistung fĂŒr einen gpt-oss-120B-Trainingslauf. Wir haben TorchTitan auf einem Kubernetes-Cluster mit 64x H200-GPUs verwendet. WĂ€hrend unserer Tests haben wir die Job-Abschlusszeit (JCT) und die Modell-FLOPs-Auslastung (MFU) im Vergleich zu einem Standardansatz (Checkpoint-Neustart) und dem fĂŒhrenden Open-Source-Fehlertoleranz-Trainingsframework (TorchFT) gemessen. Wir haben mehrere HardwareausfĂ€lle auf dem Cluster simuliert, um die fehlertoleranten Trainingsframeworks einem Stresstest zu unterziehen.
Im Vergleich zu Checkpoint-Restart war TorchPass bei der Wiederherstellung nach AusfĂ€llen deutlich schneller. Dies reduzierte die Gesamt-JCT und sorgte fĂŒr eine hohe MFU. Im Vergleich zu TorchFT hatte TorchPass eine deutlich höhere MFU. Dies reduzierte die Gesamt-JCT und sorgte gleichzeitig fĂŒr eine gleichbleibende Zeit zur Wiederherstellung nach AusfĂ€llen.
Die Verwendung von TorchPass hat auch einen Downstream-Effekt, da es Benutzern die Möglichkeit bietet, Checkpoints in ihrem Trainingscode zu reduzieren oder sogar ganz zu entfernen. Dies bedeutet gröĂere effektive Batch-GröĂen, ein geringeres Risiko fĂŒr Speicherfehler (OOMs) und weniger Zeitaufwand fĂŒr Ăberlegungen zum Speicherplatz. FĂŒr eine Forschungsorganisation kann dies letztendlich eine schnellere Erreichung ihrer Trainingsziele bedeuten", schloss Nanos.
Messbare geschÀftliche Auswirkungen durch softwaregesteuerte Fehlertoleranz
FĂŒr Kunden, die groĂe KI-Cluster betreiben, sind die Auswirkungen unmittelbar und messbar. In einer typischen H200-Bereitstellung mit 2.048 GPUs sorgt TorchPass Workload Fault Tolerance durch die Vermeidung von Rechenleistungsverschwendung fĂŒr jĂ€hrliche Einsparungen von ĂŒber 6 Millionen US-Dollar.
Diese Einsparungen resultieren aus der Eliminierung von Hunderttausenden von GPU-Stunden, die sonst durch fehlerbedingte Neustarts, kaskadierende Wiederholungsversuche und Leerlaufzeiten verloren gehen wĂŒrden. Indem TorchPass Trainingsjobs trotz Infrastrukturfehlern weiterlaufen lĂ€sst, anstatt sie neu zu starten, wandelt es verlorene GPU-Zeit in produktives Training um und verbessert so erheblich die Rendite von GPU-Investitionen, die heute oft nur 30 bis 50 % der theoretischen Leistung erreichen.
Die nÀchste Generation der KI-Infrastruktur ermöglichen
Indem TorchPass ZuverlĂ€ssigkeit zu einer softwaredefinierten Funktion statt zu einer HardwarebeschrĂ€nkung macht, bietet es die erforderliche Betriebssicherheit fĂŒr den Einsatz eng gekoppelter Systeme der nĂ€chsten Generation wie NVIDIA GB200 und GB300 NVL72 sowie zukĂŒnftiger Rack-Scale-Systeme, bei denen dichte Architekturen selbst die Kosten kleinerer AusfĂ€lle vervielfachen.
TorchPass baut auf der frĂŒheren Version von Network Fault Tolerance von Clockwork.io auf, die dieselben Prinzipien der softwaregesteuerten KI-Struktur auf die Netzwerkausfallsicherheit anwendet, indem sie den Datenverkehr bei VerbindungsausfĂ€llen transparent umleitet.
Zusammen bilden diese Funktionen die Software-Driven AI Fabric von Clockwork.io, eine herstellerneutrale Software-Layer, die Netzwerk, Rechenleistung und Speicher umfasst. Da moderne KI-Workloads auf eng gekoppelten Clustern laufen, auf denen Hunderte oder Tausende von Prozessoren koordiniert im Gleichschritt arbeiten mĂŒssen, verhĂ€lt sich die Infrastruktur wie ein einziges System, in dem ZuverlĂ€ssigkeit und Leistung direkt die Gesamteffizienz bestimmen. Durch die Verwaltung dieser KomplexitĂ€t in der Software ermöglicht Clockwork.io den Betreibern, heterogene KI-Infrastrukturen als einheitliche Plattform zu betreiben und dabei eine hohe Auslastung, vorhersehbare Leistung und Ausfallsicherheit zu gewĂ€hrleisten, wĂ€hrend die FlexibilitĂ€t zur Weiterentwicklung der Hardware und zur Verbesserung der Wirtschaftlichkeit groĂ angelegter KI-Implementierungen erhalten bleibt.
Um mehr ĂŒber die EinfĂŒhrung von TorchPass zu erfahren, besuchen Sie das Clockwork.io-Team persönlich auf der NVIDIA GTC vom 16. bis 19. MĂ€rz am Stand Nr. 205 oder besuchen Sie https://clockwork.io.
Ăber Clockwork.io
Clockwork.io ist ein Pionier im Bereich Software-Driven AI Fabricsâą und bietet eine programmierbare Software-Layer, die groĂe KI-Cluster beobachtbar, deterministisch und von Grund auf widerstandsfĂ€hig macht, um einen kontinuierlichen Workload-Fortschritt und eine maximale Cluster-Auslastung zu erzielen. Mit der FleetIQ-Plattform können Unternehmen die anspruchsvollsten KI-Workloads der Welt schneller, zuverlĂ€ssiger und kostengĂŒnstiger trainieren, bereitstellen und bedienen. Unternehmen wie Uber, Wells Fargo, DCAI, Nebius, Nscale und White Fiber vertrauen auf Clockwork.io, um ihre KI-Infrastruktur zu betreiben. Weitere Informationen finden Sie unter www.clockwork.io.
Medienkontakt
Dana Trismen
clockwork@unshakablemarketinggroup.com
650-269-7478
QUELLE: Clockwork
Hinweis/Disclaimer zur Ăbersetzung (inkl. KI-UnterstĂŒtzung): Die Originalmeldung in der Ausgangssprache (in der Regel Englisch) ist die einzige maĂgebliche, autorisierte und rechtsverbindliche Fassung. Diese deutschsprachige Ăbersetzung/Zusammenfassung dient ausschlieĂlich der leichteren VerstĂ€ndlichkeit und kann gekĂŒrzt oder redaktionell verdichtet sein. Die Ăbersetzung kann ganz oder teilweise mithilfe maschineller Ăbersetzung bzw. generativer KI (Large Language Models) erfolgt sein und wurde redaktionell geprĂŒft; trotzdem können Fehler, Auslassungen oder Sinnverschiebungen auftreten. Es wird keine GewĂ€hr fĂŒr Richtigkeit, VollstĂ€ndigkeit, AktualitĂ€t oder Angemessenheit ĂŒbernommen; HaftungsansprĂŒche sind ausgeschlossen (auch bei FahrlĂ€ssigkeit), maĂgeblich ist stets die Originalfassung. Diese Mitteilung stellt weder eine Kauf- noch eine Verkaufsempfehlung dar und ersetzt keine rechtliche, steuerliche oder finanzielle Beratung. Bitte beachten Sie die englische Originalmeldung bzw. die offiziellen Unterlagen auf www.sedarplus.ca, www.sec.gov, www.asx.com.au oder auf der Website des Emittenten; bei Abweichungen gilt ausschlieĂlich das Original.
So schÀtzen die Börsenprofis ACCESS Newswire Aktien ein!
FĂŒr. Immer. Kostenlos.


