Blackwell-Optimierung, KI-Token-Kosten

Blackwell-Optimierung: KI-Token-Kosten sinken um 80 Prozent

01.07.2026 - 03:33:29 | boerse-global.de

Nvidias Blackwell-Architektur erzielt Übertaktungsrekord und senkt KI-Kosten drastisch. Neue Cloud-Partnerschaften und Datenbank-Beschleunigung untermauern den Fortschritt.

Nvidia Blackwell: Rekord-Takt und günstigere KI-Modelle
Blackwell-Optimierung - Nahaufnahme einer Hochleistungs-GPU mit komplexer Schaltung, blau leuchtend, umgeben von flüssigem Stickstoffdampf. 01.07.2026 - Bild: über boerse-global.de

Während Übertakter erstmals die 4-GHz-Marke knackten, senkten Software-Optimierungen die Kosten für KI-Sprachmodelle drastisch.

Erster Blackwell-GPU übertaktet die 4-GHz-Marke

Der griechischen Übertakter-Gruppe Team OGS ist ein historischer Erfolg gelungen: Sie trieb eine GALAX GeForce RTX 5090D (HOF OC LAB Edition) auf satte 4002 MHz. Damit überschreitet erstmals ein Blackwell-Chip die magische 4-GHz-Grenze.

Die Rekordjagd gelang mit Flüssigstickstoff-Kühlung (LN2) und einem speziellen Spannungs-Modul (Elmor ECB). Der Grafikspeicher lief dabei mit 1860 MHz – das entspricht einer effektiven Geschwindigkeit von rund 30 Gbit/s. Im Benchmark GPUPI v3.3 – 32B absolvierte das System die Berechnung in 35,377 Sekunden und sicherte sich damit den Spitzenplatz in der Rangliste. Der bisherige Rekord von 3,88 GHz – aufgestellt vom Übertakter Splave – wurde damit übertroffen.

Allerdings: Der absolute GPU-Frequenzrekord bleibt bei AMD. Die RX 9060 XT hält mit 4.769 GHz weiterhin die Krone.

KI-Kosten um das Fünffache gesunken

Nvidia hat den Software-Stack für Blackwell massiv optimiert – mit enormen Folgen für die Wirtschaftlichkeit von KI-Modellen. Innerhalb eines Monats nach dem Start von DeepSeek V4 senkten Verbesserungen in der Inferenz-Software die Token-Kosten für das Modell um bis zu 80 Prozent.

Die Performance-Sprünge sind das Ergebnis mehrerer Technologien: NVFP4 (4-Bit-Gleitkomma), Multi-Token-Vorhersage und disaggregiertes Serving. Zusammengenommen steigerten sie den Durchsatz um das bis zu 20-Fache. Branchenpartner wie Baseten meldeten einen Anstieg der Tokens pro Sekunde um 50 Prozent durch den Einsatz von TensorRT-LLM. Auch Cognition, Deep Infra und Together AI haben die Blackwell-spezifischen Optimierungen integriert.

Anzeige

Die neuen Blackwell-Optimierungen senken Token-Kosten um bis zu 80 % – doch nur wer die richtigen Hebel (NVFP4, Multi-Token-Vorhersage, disaggregiertes Serving) kennt, kann sie für sein Modell nutzen. Dieser Report liefert eine konkrete Checkliste und einen Kostenrechner. Jetzt kostenlosen Optimierungs-Report anfordern

Parallel dazu veröffentlichte DeepSeek DSpark – ein quelloffenes Framework für spekulative Dekodierung unter der MIT-Lizenz. In Tests mit den Modellen DeepSeek-V4-Flash und V4-Pro erzielte das Framework eine Beschleunigung der Generierung pro Nutzer zwischen 57 und 85 Prozent.

Claude-Modelle jetzt auf Blackwell in der Azure-Cloud

Microsoft und Nvidia haben ihre Zusammenarbeit ausgeweitet: Die KI-Modelle von Anthropic – darunter Claude Opus 4.8 und Sonnet 4.6 – sind nun über Microsoft Foundry auf Azure allgemein verfügbar. Sie laufen auf dem Nvidia GB300 NVL72-System mit dem Blackwell Ultra GPU.

Die Infrastruktur besteht aus 72 GPUs und 36 Grace-CPUs, bietet 37 TB kombinierten Arbeitsspeicher und 130 TB/s NVLink-Bandbreite. Diese Konfiguration liefert bis zu 1.440 Petaflops FP4-Leistung und ist für autonome Sub-Agenten sowie spezialisierte KI-Workloads ausgelegt. Der Schritt folgt auf massive Finanzierungszusagen: Anthropic hatte zuvor Azure-Compute im Wert von 30 Milliarden Euro gebucht, während Nvidia und Microsoft Milliarden in das KI-Startup investierten.

Datenbanken und Forschung profitieren

Anzeige

Während Ihre Konkurrenz noch auf veralteten GPUs läuft, haben Unternehmen wie Baseten den Durchsatz mit TensorRT-LLM um 50 % gesteigert. Der 5-Schritte-Migrationsplan in diesem Report zeigt, wie auch Sie von Blackwell profitieren – bevor der Wettbewerbsnachteil spürbar wird. Blackwell-Migrationsplan jetzt sichern

Blackwell beschleunigt nicht nur KI-Inferenz, sondern auch klassische Datenverarbeitung und Wissenschaft. Die Nvidia GPU Query Engine (GQE) nutzt die Blackwell-Dekompressions-Engine und den High-Bandwidth-Speicher (HBM), um SQL-Abfragen zu beschleunigen. Benchmarks zeigen eine durchschnittliche Beschleunigung um das 7,5-Fache gegenüber CPU-basierten Datenbanken – bei einzelnen Abfragen sogar bis zu 25,5-mal schneller.

In der Astronomie beschleunigt die Software cuPhoton die Datenverarbeitung: Auf GB200-NVL72-Systemen verbesserte sich die Ladegeschwindigkeit von FITS-Daten um das 14.900-Fache. Das Framework ALCHEMI NIM wiederum ermöglicht Material-Screenings 50-mal schneller – etwa für Organisationen wie Lila Sciences. Und im Bereich der Materialsimulation bietet es eine dreifache Beschleunigung für die Geometrieoptimierung im Vienna Ab initio Simulation Package (VASP).

de | wissenschaft | 69664542 |