Gemini 3.5 Flash: KI steuert Bildschirm mit 78,4 Punkten Benchmark
25.06.2026 - 17:47:52 | boerse-global.de
Der Suchmaschinenriese erweitert die Integration seiner KI Gemini in den Chrome-Browser. Neue Funktionen erlauben es, Texte und Bildschirminhalte direkt für Abfragen zu nutzen.
Google testet derzeit mehrere neue Interaktionsmöglichkeiten, die Nutzern den Zugriff auf Gemini direkt aus dem Browser heraus erleichtern sollen. Die Updates, die in den vergangenen Tagen in experimentellen Builds und in der kommenden Version 149 gesichtet wurden, zielen darauf ab, die Verarbeitung von Text- und Bildinformationen grundlegend zu vereinfachen.
Schwimmende Symbolleiste bei Textauswahl
In Tests innerhalb von Chrome Canary, der experimentellen Entwicklerversion des Browsers, erscheint bei der Markierung von Text auf einer Webseite eine neue schwebende Symbolleiste. Diese enthält einen eigenen Button, um Gemini zum markierten Text zu befragen – zusätzlich zu den klassischen Optionen zum Kopieren und Teilen von Inhalten. Ein Drei-Punkte-Menü bietet weitere Einstellungen, etwa um die Funktion für bestimmte Webseiten auszublenden.
Wählt ein Nutzer die Gemini-Option aus, öffnet der Browser die Gemini-Seitenleiste und fügt automatisch den markierten Text ein. Die Funktion ist derzeit nur in den Testversionen sichtbar. Ein konkreter Termin für die breite Veröffentlichung steht noch nicht fest.
Bildschirmauswahl in Chrome 149
Während Google die KI-Integration in den Browser vertieft, zeigen diese praktischen Tipps, wie Sie ähnliche KI-Werkzeuge bereits heute effektiv für Ihre tägliche Organisation und Recherche nutzen können. Der kostenlose PDF-Report bietet fertige Anleitungen und Beispiel-Prompts für den sofortigen Start. ChatGPT als Alltagshelfer: Gratis-Report jetzt herunterladen
Parallel dazu führt Chrome 149 ein Werkzeug namens „Select from screen" ein. Damit lassen sich bestimmte Bereiche eines geöffneten Tabs auswählen – sowohl Bilder als auch Text –, um sie als Eingabe für die KI zu nutzen. Der Zugriff erfolgt über das Gemini-Panel durch ein Plus-Menü, anschließend können eine oder mehrere Regionen auf dem Bildschirm definiert werden.
Die Funktion ähnelt dem „Circle to Search"-Feature, das von mobilen Geräten bekannt ist. Mögliche Anwendungen reichen vom Vergleich von Produkten wie Schuhen über die Erklärung komplexer Diagramme bis hin zu kreativen Vorschlägen für sichtbare Objekte. Das Tool steht im Inkognito-Modus nicht zur Verfügung und erfordert ein angemeldetes Google-Konto.
Computer Use: KI steuert den Bildschirm
Google hat zudem sein Modell Gemini 3.5 Flash um native „Computer Use"-Fähigkeiten erweitert und damit das bisherige Gemini 2.5-Modell für diese Aufgaben abgelöst. Das Update, verfügbar über die Gemini API und die Enterprise Agent Platform, ermöglicht es KI-Agenten, Bildschirmelemente zu erkennen und zu bedienen – durch Klicken, Tippen und Scrollen in Web-, Mobil- und Desktop-Umgebungen.
In Leistungstests erreichte das Modell 78,4 Punkte auf dem OSWorld-Verified-Benchmark. Branchenpartner wie UiPath, Browserbase und Browser Use haben die Funktionen bereits integriert. Um Sicherheitsbedenken in Unternehmen zu begegnen, enthält das System ein adversariales Training zur Verhinderung von Prompt-Injection-Angriffen und verlangt vor sensiblen Aktionen eine explizite Nutzerbestätigung.
Die rasante Entwicklung von KI-Funktionen wie „Computer Use“ erfordert nicht nur technisches Wissen, sondern auch ein Verständnis für die richtige Befehlseingabe im privaten Gebrauch. Erfahren Sie in diesem kompakten Ratgeber, welche einfachen Befehle Ihren digitalen Alltag am PC sofort spürbar erleichtern. Die besten KI-Tricks für Einsteiger kostenlos sichern
Desktop-App wird bildschirmbewusst
Auch die Gemini-Desktop-Anwendung erhält Updates mit Fokus auf Bildschirmerfassung. Die Funktion „Speak to Window" ermöglicht systemweite Spracheingabe, während „Magic Pointer" es erlaubt, Informationen in jedem aktiven Fenster zu markieren und Gemini zur Zusammenfassung oder Bearbeitung aufzufordern.
Auf macOS laufen zudem Tests für eine konversationelle KI-Funktion namens „Gemini Live" sowie eine Fernsteuerungsoption namens „Connect another Mac". Diese Desktop-Funktionen befinden sich noch in der Testphase und wurden bisher nicht für die breite Öffentlichkeit freigegeben.
