Blackwell-Optimierung: KI-Token-Kosten sinken um 80 Prozent
01.07.2026 - 03:33:29 | boerse-global.de
Während Übertakter erstmals die 4-GHz-Marke knackten, senkten Software-Optimierungen die Kosten für KI-Sprachmodelle drastisch.
Erster Blackwell-GPU übertaktet die 4-GHz-Marke
Der griechischen Übertakter-Gruppe Team OGS ist ein historischer Erfolg gelungen: Sie trieb eine GALAX GeForce RTX 5090D (HOF OC LAB Edition) auf satte 4002 MHz. Damit überschreitet erstmals ein Blackwell-Chip die magische 4-GHz-Grenze.
Die Rekordjagd gelang mit Flüssigstickstoff-Kühlung (LN2) und einem speziellen Spannungs-Modul (Elmor ECB). Der Grafikspeicher lief dabei mit 1860 MHz – das entspricht einer effektiven Geschwindigkeit von rund 30 Gbit/s. Im Benchmark GPUPI v3.3 – 32B absolvierte das System die Berechnung in 35,377 Sekunden und sicherte sich damit den Spitzenplatz in der Rangliste. Der bisherige Rekord von 3,88 GHz – aufgestellt vom Übertakter Splave – wurde damit übertroffen.
Allerdings: Der absolute GPU-Frequenzrekord bleibt bei AMD. Die RX 9060 XT hält mit 4.769 GHz weiterhin die Krone.
KI-Kosten um das Fünffache gesunken
Nvidia hat den Software-Stack für Blackwell massiv optimiert – mit enormen Folgen für die Wirtschaftlichkeit von KI-Modellen. Innerhalb eines Monats nach dem Start von DeepSeek V4 senkten Verbesserungen in der Inferenz-Software die Token-Kosten für das Modell um bis zu 80 Prozent.
Die Performance-Sprünge sind das Ergebnis mehrerer Technologien: NVFP4 (4-Bit-Gleitkomma), Multi-Token-Vorhersage und disaggregiertes Serving. Zusammengenommen steigerten sie den Durchsatz um das bis zu 20-Fache. Branchenpartner wie Baseten meldeten einen Anstieg der Tokens pro Sekunde um 50 Prozent durch den Einsatz von TensorRT-LLM. Auch Cognition, Deep Infra und Together AI haben die Blackwell-spezifischen Optimierungen integriert.
Die neuen Blackwell-Optimierungen senken Token-Kosten um bis zu 80 % – doch nur wer die richtigen Hebel (NVFP4, Multi-Token-Vorhersage, disaggregiertes Serving) kennt, kann sie für sein Modell nutzen. Dieser Report liefert eine konkrete Checkliste und einen Kostenrechner. Jetzt kostenlosen Optimierungs-Report anfordern
Parallel dazu veröffentlichte DeepSeek DSpark – ein quelloffenes Framework für spekulative Dekodierung unter der MIT-Lizenz. In Tests mit den Modellen DeepSeek-V4-Flash und V4-Pro erzielte das Framework eine Beschleunigung der Generierung pro Nutzer zwischen 57 und 85 Prozent.
Claude-Modelle jetzt auf Blackwell in der Azure-Cloud
Microsoft und Nvidia haben ihre Zusammenarbeit ausgeweitet: Die KI-Modelle von Anthropic – darunter Claude Opus 4.8 und Sonnet 4.6 – sind nun über Microsoft Foundry auf Azure allgemein verfügbar. Sie laufen auf dem Nvidia GB300 NVL72-System mit dem Blackwell Ultra GPU.
Die Infrastruktur besteht aus 72 GPUs und 36 Grace-CPUs, bietet 37 TB kombinierten Arbeitsspeicher und 130 TB/s NVLink-Bandbreite. Diese Konfiguration liefert bis zu 1.440 Petaflops FP4-Leistung und ist für autonome Sub-Agenten sowie spezialisierte KI-Workloads ausgelegt. Der Schritt folgt auf massive Finanzierungszusagen: Anthropic hatte zuvor Azure-Compute im Wert von 30 Milliarden Euro gebucht, während Nvidia und Microsoft Milliarden in das KI-Startup investierten.
Datenbanken und Forschung profitieren
Während Ihre Konkurrenz noch auf veralteten GPUs läuft, haben Unternehmen wie Baseten den Durchsatz mit TensorRT-LLM um 50 % gesteigert. Der 5-Schritte-Migrationsplan in diesem Report zeigt, wie auch Sie von Blackwell profitieren – bevor der Wettbewerbsnachteil spürbar wird. Blackwell-Migrationsplan jetzt sichern
Blackwell beschleunigt nicht nur KI-Inferenz, sondern auch klassische Datenverarbeitung und Wissenschaft. Die Nvidia GPU Query Engine (GQE) nutzt die Blackwell-Dekompressions-Engine und den High-Bandwidth-Speicher (HBM), um SQL-Abfragen zu beschleunigen. Benchmarks zeigen eine durchschnittliche Beschleunigung um das 7,5-Fache gegenüber CPU-basierten Datenbanken – bei einzelnen Abfragen sogar bis zu 25,5-mal schneller.
In der Astronomie beschleunigt die Software cuPhoton die Datenverarbeitung: Auf GB200-NVL72-Systemen verbesserte sich die Ladegeschwindigkeit von FITS-Daten um das 14.900-Fache. Das Framework ALCHEMI NIM wiederum ermöglicht Material-Screenings 50-mal schneller – etwa für Organisationen wie Lila Sciences. Und im Bereich der Materialsimulation bietet es eine dreifache Beschleunigung für die Geometrieoptimierung im Vienna Ab initio Simulation Package (VASP).
