ACCESS Newswire, US0000000003

Clockwork.io fĂŒhrt eine neue Klasse der Fehlertoleranz ein, um die durch AusfĂ€lle verursachte Verschwendung von GPU-Leistung beim KI-Training zu beenden

11.03.2026 - 14:01:00 | irw-press.com

ACCESS Newswire / US0000000003

Die neue TorchPass-Lösung bewĂ€ltigt eine millionenschwere Herausforderung im Bereich der KI-Infrastruktur und nutzt Live-GPU-Migration, um groß angelegte KI-Trainings trotz HardwareausfĂ€llen fortzusetzen, anstatt kostspielige Neustarts zu erzwingen

 

PALO ALTO, Kalifornien / ACCESS Newswire / 10. MĂ€rz 2026 / Clockwork.io, der MarktfĂŒhrer im Bereich Software-Driven AI Fabricsℱ - einer programmierbaren, herstellerneutralen Software-Layer, die groß angelegte GPU-Cluster fĂŒr Echtzeit-Beobachtbarkeit, Fehlertoleranz und deterministische Leistung optimiert – gab heute die allgemeine VerfĂŒgbarkeit von TorchPass Workload Fault Tolerance bekannt. Diese neue Klasse softwaregesteuerter Fehlertoleranz beseitigt einen der kostspieligsten Ausfallmodi beim groß angelegten KI-Training: katastrophale Job-Neustarts aufgrund von Infrastrukturfehlern.

 

 

TorchPass wird als Kernfunktion der Clockwork.io FleetIQℱ-Plattform bereitgestellt und wendet die Prinzipien Software-Driven AI Fabrics auf verteiltes Training an. Dabei nutzt es Live-GPU-Migration, um Workloads auch bei GPU-AusfĂ€llen, Netzwerkstörungen, Treiberfehlern und sogar vollstĂ€ndigen Node-AbstĂŒrzen weiterlaufen zu lassen – ohne Neustarts an Checkpoints oder Verlust des Fortschritts.

 

„Unternehmen investieren Milliarden in Chips der nĂ€chsten Generation, doch die Kosten fĂŒr die AusfĂŒhrung verteilter KI-Jobs sind nach wie vor extrem hoch, da das Ökosystem AusfĂ€lle als unvermeidbar akzeptiert hat“, so Suresh Vasudevan, CEO von Clockwork.io. „Wir haben TorchPass entwickelt, um diese PrĂ€misse grundlegend zu widerlegen. Anstatt AusfĂ€lle als unvermeidbar zu betrachten und nachtrĂ€glich neu zu starten, macht TorchPass Infrastrukturfehler fĂŒr die Workload unsichtbar – das Training wird trotz AusfĂ€llen transparent in der Software fortgesetzt. Bei einer typischen Bereitstellung mit 2.048 GPUs bedeutet dies eine Einsparung von ĂŒber 6 Millionen $ pro Jahr an Rechenleistung. Genau dafĂŒr wurde unser softwaregesteuerter KI-Fabric-Ansatz entwickelt: eine fehlertolerante KI-Infrastruktur.“

 

Dylan Patel, GrĂŒnder und CEO von SemiAnalysis, stimmte zu, dass groß angelegte Trainingsaufgaben durch Unterbrechungen eingeschrĂ€nkt werden.

 

„Da Blackwell-Cluster mit einer NVL72-DomĂ€ne eingefĂŒhrt werden und wir mit der NVL576-DomĂ€ne von Rubin Ultra in die Zukunft blicken, ist die Vorstellung, dass ein einziger GPU-Fehler oder eine Netzwerkverbindung einen gesamten Lauf zum Erliegen bringen kann, völlig inakzeptabel“, so Patel. „TorchPass löst eine große Herausforderung hinsichtlich der ZuverlĂ€ssigkeit von Clustern: Es bietet transparentes Failover und Live-Workload-Migration, wodurch die MFU hoch bleibt, was wiederum zu einer besseren GPU-Wirtschaftlichkeit fĂŒhrt.“

 

Warum KI-Training in großem Maßstab scheitert

 

Verteiltes KI-Training ist nach wie vor eine der fehleranfĂ€lligsten Workloads in modernen Infrastrukturen. Mit zunehmender ClustergrĂ¶ĂŸe steigt die AnfĂ€lligkeit stark an. Untersuchungen von Meta FAIR zeigen, dass die mittlere Zeit bis zum Ausfall in einem Cluster mit 1.024 GPUs auf 7,9 Stunden und bei 16.384 GPUs auf nur 1,8 Stunden sinkt. Das bedeutet, dass fĂŒr die meisten großen, auf KI fokussierten Unternehmen oder KI-Clouds ausfallbedingte Neustarts völlig unvermeidlich sind – was ein großes Hindernis fĂŒr die Skalierung der Auswirkungen von KI darstellt.

 

Jeder Ausfall zwingt Trainingsjobs dazu, zum letzten Checkpoint zurĂŒckzukehren, wodurch Minuten oder Stunden bereits geleisteter Arbeit verloren gehen und zusĂ€tzliche Zeit fĂŒr manuelle Eingriffe, die Neuzuweisung von Ressourcen und den Neustart des Trainings verschwendet wird. Diese Neustarts begrenzen stillschweigend die GPU-Auslastung, wodurch die ZuverlĂ€ssigkeit zu einem der grĂ¶ĂŸten versteckten Kostenfaktoren in der KI-Infrastruktur wird.

 

TorchPass behebt dieses Problem, indem es kostspielige AusfĂ€lle von KI-Workloads proaktiv angeht und sie löst, bevor der Job gestoppt wird oder neu gestartet werden muss. TorchPass ist fĂŒr Unternehmen, die große KI-Workloads und KI-Clouds betreiben, von entscheidender Bedeutung und verbessert die ZuverlĂ€ssigkeit von Workloads und die Clusterauslastung erheblich. FĂŒr KI-Clouds, die nun betroffene GPUs beheben können, wĂ€hrend der Trainingslauf wie geplant fortgesetzt wird, bedeutet dies bessere Kunden-SLAs und eine insgesamt bessere Wirtschaftlichkeit der KI-Cloud, wodurch sie ihre Margen besser schĂŒtzen und neue Modelle schneller bereitstellen können.

 

„Die Steuerung der Rechenleistung/-kapazitĂ€t in großen GPU-Clustern ist entscheidend, um sicherzustellen, dass wir unseren Kunden zuverlĂ€ssige KapazitĂ€ten bieten können. Mit TorchPass haben wir die UnterstĂŒtzung eines Unternehmens, das sich auf Ausfallsicherheit als Kernfunktion konzentriert: Es ersetzt jede einzelne ausgefallene GPU und sorgt dafĂŒr, dass der Rest des Jobs weiterlĂ€uft, anstatt dass ein kleines Problem Auswirkungen auf unseren gesamten Betrieb hat“, so David Power, CTO von Nscale. „Bei unserer Bewertung hat Live GPU Migration sowohl die LaufkontinuitĂ€t als auch den Durchsatz unter realen Fehlerbedingungen aufrechterhalten, was genau das ist, was man braucht, um eine vorhersehbare Trainingszeit und ein besseres Kundenerlebnis in großem Maßstab zu erzielen.“

 

So funktioniert Live GPU Migration: ZuverlÀssigkeit ohne Neustart

 

TorchPass fĂŒhrt bei AusfĂ€llen eine transparente Migration der betroffenen Trainingsprozesse zu freien Ressourcen durch. TorchPass schließt die Wiederherstellung in der Regel in etwa drei Minuten ab, wĂ€hrend der Trainingsprozess ohne Unterbrechung fortgesetzt wird.

 

Es unterstĂŒtzt die Ausfallsicherheit in drei Ausfallszenarien:

 

Ungeplante Migration, die plötzliche Ereignisse wie Kernel-AbstĂŒrze, StromausfĂ€lle oder GPU-Fehler durch die Rekonstruktion des Zustands aus fehlerfreien Replikaten behandeltPrĂ€ventive Migration, ausgelöst durch FrĂŒhwarnsignale wie steigende Temperaturen oder ECC-Speicherfehler, ermöglicht eine kontrollierte Migration vor einem schwerwiegenden AusfallGeplante Migration, die Wartungsarbeiten, Patches und die Neuverteilung der Arbeitslast ohne Unterbrechung des Trainings ermöglicht

 

Dieser Ansatz reduziert den Verlust an Trainingsfortschritt um 95 % und verkĂŒrzt die Ausfallzeit von etwa drei Stunden pro Tag auf weniger als zehn Minuten in einem Cluster mit 1.024 GPUs.

 

Jordan Nanos, Mitglied des technischen Stabs und Hauptautor des unabhĂ€ngigen Benchmarks von ClusterMAX-SemiAnalysis fĂŒr groß angelegtes KI-Training, hat Clockwork.io TorchPass einem Stresstest unterzogen und festgestellt, dass es bei groß angelegten verteilten Trainings eine hervorragende Leistung und Effizienz bietet, wodurch Benutzer den Checkpointing-Overhead beim Training reduzieren können. Er teilte die folgenden Ergebnisse mit:

 

„In unseren Tests lieferte Clockwork.io TorchPass die schnellste und effizienteste fehlertolerante Leistung fĂŒr einen gpt-oss-120B-Trainingslauf. Wir haben TorchTitan auf einem Kubernetes-Cluster mit 64x H200-GPUs verwendet. WĂ€hrend unserer Tests haben wir die Job-Abschlusszeit (JCT) und die Modell-FLOPs-Auslastung (MFU) im Vergleich zu einem Standardansatz (Checkpoint-Neustart) und dem fĂŒhrenden Open-Source-Fehlertoleranz-Trainingsframework (TorchFT) gemessen. Wir haben mehrere HardwareausfĂ€lle auf dem Cluster simuliert, um die fehlertoleranten Trainingsframeworks einem Stresstest zu unterziehen.

 

Im Vergleich zu Checkpoint-Restart war TorchPass bei der Wiederherstellung nach AusfĂ€llen deutlich schneller. Dies reduzierte die Gesamt-JCT und sorgte fĂŒr eine hohe MFU. Im Vergleich zu TorchFT hatte TorchPass eine deutlich höhere MFU. Dies reduzierte die Gesamt-JCT und sorgte gleichzeitig fĂŒr eine gleichbleibende Zeit zur Wiederherstellung nach AusfĂ€llen.

 

Die Verwendung von TorchPass hat auch einen Downstream-Effekt, da es Benutzern die Möglichkeit bietet, Checkpoints in ihrem Trainingscode zu reduzieren oder sogar ganz zu entfernen. Dies bedeutet grĂ¶ĂŸere effektive Batch-GrĂ¶ĂŸen, ein geringeres Risiko fĂŒr Speicherfehler (OOMs) und weniger Zeitaufwand fĂŒr Überlegungen zum Speicherplatz. FĂŒr eine Forschungsorganisation kann dies letztendlich eine schnellere Erreichung ihrer Trainingsziele bedeuten", schloss Nanos.

 

Messbare geschÀftliche Auswirkungen durch softwaregesteuerte Fehlertoleranz

 

FĂŒr Kunden, die große KI-Cluster betreiben, sind die Auswirkungen unmittelbar und messbar. In einer typischen H200-Bereitstellung mit 2.048 GPUs sorgt TorchPass Workload Fault Tolerance durch die Vermeidung von Rechenleistungsverschwendung fĂŒr jĂ€hrliche Einsparungen von ĂŒber 6 Millionen US-Dollar.

 

Diese Einsparungen resultieren aus der Eliminierung von Hunderttausenden von GPU-Stunden, die sonst durch fehlerbedingte Neustarts, kaskadierende Wiederholungsversuche und Leerlaufzeiten verloren gehen wĂŒrden. Indem TorchPass Trainingsjobs trotz Infrastrukturfehlern weiterlaufen lĂ€sst, anstatt sie neu zu starten, wandelt es verlorene GPU-Zeit in produktives Training um und verbessert so erheblich die Rendite von GPU-Investitionen, die heute oft nur 30 bis 50 % der theoretischen Leistung erreichen.

 

Die nÀchste Generation der KI-Infrastruktur ermöglichen

 

Indem TorchPass ZuverlĂ€ssigkeit zu einer softwaredefinierten Funktion statt zu einer HardwarebeschrĂ€nkung macht, bietet es die erforderliche Betriebssicherheit fĂŒr den Einsatz eng gekoppelter Systeme der nĂ€chsten Generation wie NVIDIA GB200 und GB300 NVL72 sowie zukĂŒnftiger Rack-Scale-Systeme, bei denen dichte Architekturen selbst die Kosten kleinerer AusfĂ€lle vervielfachen.

 

TorchPass baut auf der frĂŒheren Version von Network Fault Tolerance von Clockwork.io auf, die dieselben Prinzipien der softwaregesteuerten KI-Struktur auf die Netzwerkausfallsicherheit anwendet, indem sie den Datenverkehr bei VerbindungsausfĂ€llen transparent umleitet.

 

Zusammen bilden diese Funktionen die Software-Driven AI Fabric von Clockwork.io, eine herstellerneutrale Software-Layer, die Netzwerk, Rechenleistung und Speicher umfasst. Da moderne KI-Workloads auf eng gekoppelten Clustern laufen, auf denen Hunderte oder Tausende von Prozessoren koordiniert im Gleichschritt arbeiten mĂŒssen, verhĂ€lt sich die Infrastruktur wie ein einziges System, in dem ZuverlĂ€ssigkeit und Leistung direkt die Gesamteffizienz bestimmen. Durch die Verwaltung dieser KomplexitĂ€t in der Software ermöglicht Clockwork.io den Betreibern, heterogene KI-Infrastrukturen als einheitliche Plattform zu betreiben und dabei eine hohe Auslastung, vorhersehbare Leistung und Ausfallsicherheit zu gewĂ€hrleisten, wĂ€hrend die FlexibilitĂ€t zur Weiterentwicklung der Hardware und zur Verbesserung der Wirtschaftlichkeit groß angelegter KI-Implementierungen erhalten bleibt.

 

Um mehr ĂŒber die EinfĂŒhrung von TorchPass zu erfahren, besuchen Sie das Clockwork.io-Team persönlich auf der NVIDIA GTC vom 16. bis 19. MĂ€rz am Stand Nr. 205 oder besuchen Sie https://clockwork.io.

 

Über Clockwork.io

 

Clockwork.io ist ein Pionier im Bereich Software-Driven AI Fabricsℱ und bietet eine programmierbare Software-Layer, die große KI-Cluster beobachtbar, deterministisch und von Grund auf widerstandsfĂ€hig macht, um einen kontinuierlichen Workload-Fortschritt und eine maximale Cluster-Auslastung zu erzielen. Mit der FleetIQ-Plattform können Unternehmen die anspruchsvollsten KI-Workloads der Welt schneller, zuverlĂ€ssiger und kostengĂŒnstiger trainieren, bereitstellen und bedienen. Unternehmen wie Uber, Wells Fargo, DCAI, Nebius, Nscale und White Fiber vertrauen auf Clockwork.io, um ihre KI-Infrastruktur zu betreiben. Weitere Informationen finden Sie unter www.clockwork.io.

 

Medienkontakt

Dana Trismen

clockwork@unshakablemarketinggroup.com

650-269-7478

 

QUELLE: Clockwork

 

Hinweis/Disclaimer zur Übersetzung (inkl. KI-UnterstĂŒtzung): Die Originalmeldung in der Ausgangssprache (in der Regel Englisch) ist die einzige maßgebliche, autorisierte und rechtsverbindliche Fassung. Diese deutschsprachige Übersetzung/Zusammenfassung dient ausschließlich der leichteren VerstĂ€ndlichkeit und kann gekĂŒrzt oder redaktionell verdichtet sein. Die Übersetzung kann ganz oder teilweise mithilfe maschineller Übersetzung bzw. generativer KI (Large Language Models) erfolgt sein und wurde redaktionell geprĂŒft; trotzdem können Fehler, Auslassungen oder Sinnverschiebungen auftreten. Es wird keine GewĂ€hr fĂŒr Richtigkeit, VollstĂ€ndigkeit, AktualitĂ€t oder Angemessenheit ĂŒbernommen; HaftungsansprĂŒche sind ausgeschlossen (auch bei FahrlĂ€ssigkeit), maßgeblich ist stets die Originalfassung. Diese Mitteilung stellt weder eine Kauf- noch eine Verkaufsempfehlung dar und ersetzt keine rechtliche, steuerliche oder finanzielle Beratung. Bitte beachten Sie die englische Originalmeldung bzw. die offiziellen Unterlagen auf www.sedarplus.ca, www.sec.gov, www.asx.com.au oder auf der Website des Emittenten; bei Abweichungen gilt ausschließlich das Original.

 

So schÀtzen die Börsenprofis ACCESS Newswire Aktien ein!

<b>So schÀtzen die Börsenprofis ACCESS Newswire Aktien ein!</b>
Seit 2005 liefert der Börsenbrief trading-notes verlĂ€ssliche Anlage-Empfehlungen – dreimal pro Woche, direkt ins Postfach. 100% kostenlos. 100% Expertenwissen. Trage einfach deine E-Mail Adresse ein und verpasse ab heute keine Top-Chance mehr. Jetzt abonnieren.
FĂŒr. Immer. Kostenlos.
US0000000003 | ACCESS NEWSWIRE | boerse | 68659483 |