<?xml version='1.0' encoding='UTF-8'?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
<channel>
<title>All-AI.de - KI-News, Tools und Tutorials</title>
<link>https://www.all-ai.de/</link>
<description><![CDATA[Jeden Tag aktuelle News, Tools und Tutorials über künstliche Intelligenz. Kostenlos!]]></description>
<language>de-de</language>
<webMaster>email@all-ai.de (Andreas Becker)</webMaster>
<pubDate>Sat, 11 Apr 2026 19:48:17 +0200</pubDate>
<generator>JSitemap Pro</generator>
<atom:link rel="self" type="application/rss+xml" href="https://www.all-ai.de/component/jmap/sitemap/rss?format=rss"/>
<item>
<title>Darum streikt ChatGPT auf dem Mac im Mai</title>
<link>https://www.all-ai.de/news/news26/chatgpt-mac-mai</link>
<guid isPermaLink="true">https://www.all-ai.de/news/news26/chatgpt-mac-mai</guid>
<description><![CDATA[<p><img title="" src="https://www.all-ai.de/images/2-news/4-26/chatgpt-github-vorfall-1600.webp" alt="Ein OpenAI Symbol auf dem Mac"/></p> Nano Banana

                                


  
  
  

  
  
    
       
      Kurzfassung
      ▾
    

    
       
      Quellen
      ▾
    
  

  
  
    
    
      7. Zusammenfassung (TL;DR)
OpenAI zwingt Nutzer von macOS-Apps wie ChatGPT Desktop zu einem Update, da Entwickler-Zertifikate potenziell gefährdet waren.
Ein automatisierter Workflow hatte zuvor eine manipulierte Version der Bibliothek Axios heruntergeladen, die Teil eines großen Hackerangriffs war.
Es gibt keine Hinweise auf gestohlene Nutzerdaten oder kompromittierte KI-Modelle.
Wer das Update nicht bis zum 8. Mai 2026 installiert, kann die Apps unter macOS nicht mehr nutzen.
    
  

  
  
    
    
       OpenAI: Our response to the Axios developer tool compromise 

 X: OpenAI - offizieller X-Post zum Vorfall 

 Axios: OpenAI flags software supply chain scare 
    
  
                     OpenAI reagiert auf einen weitreichenden Supply-Chain-Angriff auf die Bibliothek Axios und tauscht vorsorglich wichtige Sicherheitszertifikate aus. Nutzer von macOS-Anwendungen wie ChatGPT Desktop müssen ihre Software daher zwingend auf die neuesten Versionen aktualisieren.                       Gefahr durch kompromittierte Signatur-Schlüssel Am 31. März 2026 geriet die populäre Entwickler-Bibliothek Axios ins Visier eines groß angelegten Hackerangriffs. Google-Sicherheitsexperten ordnen diesen Vorfall nordkoreanischen Akteuren zu. Auch OpenAI blieb von den globalen Auswirkungen nicht verschont. Ein automatisierter Workflow des Unternehmens lud versehentlich eine schadhafte Axios-Version herunter. Dieser spezifische Prozess hatte direkten Zugriff auf sensible Zertifikate, welche OpenAI für die Signierung von macOS-Apps verwendet. Mit solchen Schlüsseln verifiziert Apple die Echtheit einer Software. Eine erfolgreiche Entwendung hätte es Angreifern theoretisch ermöglicht, eigene Schadsoftware als legitime App zu tarnen. Interne Analysen zeigen jedoch, dass die Angreifer das kryptografische Material aufgrund von Timing-Faktoren nicht abgreifen konnten. OpenAI betont zudem, dass weder Nutzerdaten abflossen noch die eigenen KI-Modelle oder internen Systeme kompromittiert wurden.               
    
        Twitter Beitrag - Cookies links unten aktivieren.
    
 We recently identified a security issue involving the third-party developer library Axios that was part of a broader industry incident. We found no evidence that OpenAI user data was accessed, that our systems were compromised, or that our software was altered. Out of an…&mdash; OpenAI (@OpenAI) April 11, 2026                  Technische Ursache bei GitHub Actions Der Ursprung des Problems bei OpenAI lag in einer technischen Unschärfe im Code-Management. Ein GitHub-Actions-Workflow nutzte sogenannte »Floating Tags« anstelle von fest definierten Commit-Hashes. Dadurch zog das System automatisch die manipulierte Axios-Version 1.14.1, ohne eine Mindestwartezeit für neue Pakete zu erzwingen. Das Entwicklerteam hat diese Fehlkonfiguration inzwischen vollständig behoben. Alle betroffenen macOS-Anwendungen signiert das Unternehmen ab sofort mit komplett neuen Schlüsseln. Apple blockiert künftig jede Notarisierung von Software, die noch das alte Zertifikat trägt.                   Anzeige               Klare Frist für das Software-Update Nutzer haben nun ein festgelegtes Zeitfenster, um auf die abgesicherten Builds zu wechseln. Bis zum 8. Mai 2026 gewährt OpenAI eine Übergangsfrist. Danach verliert das alte Zertifikat seine endgültige Gültigkeit. Ältere App-Versionen erhalten keine Updates mehr und starten unter macOS blockiert durch Systemvorgaben nicht mehr. Zu den ersten sicheren Versionen gehören ChatGPT Desktop 1.2026.051 sowie die Codex App 26.406.40811. Auch Anwender von Codex CLI ab Version 0.119.0 und Atlas ab 1.2026.84.2 arbeiten sicher. Das Update lässt sich reibungslos über die integrierte Aktualisierungsfunktion der jeweiligen Programme anstoßen.]]></description>
<author>aycaramba@all-ai.de (Andreas Becker)</author>
<category>News 2026</category>
<pubDate>Sat, 11 Apr 2026 09:25:52 +0200</pubDate>
</item>
<item>
<title>Was hat Valve mit SteamGPT vor?</title>
<link>https://www.all-ai.de/news/news26/steam-gpt-ki</link>
<guid isPermaLink="true">https://www.all-ai.de/news/news26/steam-gpt-ki</guid>
<description><![CDATA[<p><img title="" src="https://www.all-ai.de/images/2-news/4-26/steam-gpt-1600.webp" alt="Ein Steambild und neuem Design"/></p> Nano Banana

                                


  
  
  

  
  
    
       
      Kurzfassung
      ▾
    

    
       
      Quellen
      ▾
    
  

  
  
    
    
      Dataminer haben im Code des jüngsten Steam-Updates Hinweise auf interne KI-Modelle namens SteamGPT gefunden.
Valve plant offenbar keinen öffentlichen Chatbot, sondern nutzt die Technologie zur Unterstützung des eigenen Kundensupports.
Die KI-Modelle sollen unter anderem Vorfallberichte aus Multiplayer-Partien vorstrukturieren und verdächtige Nutzerkonten analysieren.
Dabei fließen Daten wie VAC-Banns, Zwei-Faktor-Authentifizierung und die Herkunft von Telefonnummern in die Berechnung des Trust Scores ein.
    
  

  
  
    
    
       Gabe Follower - Gabe Follower 

 SteamTracking - service_steamgptsummary.proto 

 SteamTracking - service_steamgpt.proto 

 SteamTracking - service_steamgptrenderfarm.proto 

 The Verge - Valve may be developing a ‘SteamGPT’ for its own internal use 
    
  
                     Aktuelle Datamining-Funde des X-Nutzers Gabe Follower offenbaren neue Details zur KI-Strategie von Valve. Der Betreiber integriert unter dem Namen »SteamGPT« eigene KI-Modelle tief in den Code des Steam-Clients. Diese fungieren nicht als öffentlicher Chatbot für Spieler, sondern analysieren im Hintergrund Support-Fälle und mögliche Betrugsversuche.                 
    
        Twitter Beitrag - Cookies links unten aktivieren.
    
 It seems that Valve is working on a &quot;SteamGPT&quot; feature that will apparently deal with Steam support issues and is somehow connected to Trust Score and CS2 anti-cheat? pic.twitter.com/a3MckicQf2 &mdash; ‎Gabe Follower (@gabefollower) April 7, 2026                              Verborgene Code-Zeilen enthüllen Funktionen Ein Client-Update vom 7. April 2026 spülte drei auffällige Dateien in das System. Das Archivierungs-Projekt SteamTracking listet dort Bezeichnungen wie »SteamGPT« und »SteamGPTSummary«. Innerhalb der Dateien finden sich etablierte Begriffe wie »multi-category inference« und »fine-tuning«. Diese Parameter weisen klar auf den Einsatz und die Anpassung von generativen KI-Modellen hin. Die Bezeichnungen der Variablen verraten den primären Einsatzzweck. Die KI-Modelle verarbeiten offenbar Beweisprotokolle und verknüpfen diese direkt mit Match-IDs aus Multiplayer-Partien. Sie strukturieren eingehende Vorfallberichte vor und vergeben automatisch passende Kategorien. Moderatoren sparen durch diese Vorarbeit wertvolle Zeit bei der Beurteilung von Spieler-Meldungen.                   Anzeige               Automatisierte Kontoprüfung für mehr Sicherheit Ein separater Bereich der neuen KI-Modelle konzentriert sich auf die Bewertung verdächtiger Nutzerkonten. Die Modelle prüfen aktiv bestehende VAC-Banns, den Steam-Guard-Status und die aktive Zwei-Faktor-Authentifizierung. Zusätzlich werten die Skripte Auffälligkeiten bei E-Mail-Adressen oder der Länderkennung von Telefonnummern aus. Aus all diesen Faktoren berechnen die Modelle Wahrscheinlichkeiten für betrügerisches Verhalten. Diese Metriken fließen direkt in den Trust Score ein, der bei Spielen wie Counter-Strike 2 das Matchmaking steuert. Valve-Chef Gabe Newell lobte maschinelles Lernen bereits in der Vergangenheit als wichtigen wirtschaftlichen Faktor. Die aufgetauchten Dateien belegen nun die konkrete technische Umsetzung im Steam-Ökosystem. Eine offizielle Ankündigung zu den neuen Hintergrundprozessen liegt bislang nicht vor.]]></description>
<author>aycaramba@all-ai.de (Andreas Becker)</author>
<category>News 2026</category>
<pubDate>Fri, 10 Apr 2026 20:46:28 +0200</pubDate>
</item>
<item>
<title>Anthropic: Die 5 besten Architekturen für KI-Agenten</title>
<link>https://www.all-ai.de/news/news26/anthropic-agenten-systeme</link>
<guid isPermaLink="true">https://www.all-ai.de/news/news26/anthropic-agenten-systeme</guid>
<description><![CDATA[<p><img title="" src="https://www.all-ai.de/images/2-news/4-26/multi-agenten-anthropic-1600.webp" alt="Ein Multi-Agenten-System"/></p> Nano Banana

                                


  
  
  

  
  
    
       
      Kurzfassung
      ▾
    

    
       
      Quellen
      ▾
    
  

  
  
    
    
      Das renommierte KI-Unternehmen Anthropic hat einen Leitfaden zu den besten Architekturen für Multi-Agenten-Systeme veröffentlicht.
Die Anleitung definiert fünf klare Muster, die von einfachen Prüfschleifen bis hin zu komplexen, dezentralen Netzwerken reichen.
Entwickler erhalten konkrete Empfehlungen, welches Muster sich für welche spezifische Aufgabe und Systemgröße am besten eignet.
    
  

  
  
    
    
       Anthropic: Multi-agent coordination patterns: Five approaches and when to use them 
    
  
                     Die reibungslose Zusammenarbeit mehrerer KI-Modelle erfordert zwingend durchdachte Strukturen. Das renommierte KI-Unternehmen Anthropic liefert nun eine präzise Anleitung der besten Architektur-Muster für den effizienten Einsatz autonomer Agenten.                       Von der simplen Prüfung zur klaren Hierarchie Das erste und einfachste Muster ist das Generator-Verifier-Prinzip. Ein KI-Modell erstellt dabei einen ersten Entwurf, während ein zweites das Ergebnis anhand fester Kriterien überprüft. Erfüllt der Output die Anforderungen nicht, geht die Aufgabe mit einem genauen Feedback zurück an den Generator.                  +                 Das zweite Muster etabliert eine strikte Hierarchie für komplexere Aufgaben. Der Orchestrator-Subagent setzt ein Hauptmodell als zentralen Koordinator ein. Dieser delegiert spezifische Teilaufgaben an spezialisierte Unteragenten. Nach Abschluss führt das Hauptmodell die einzelnen Resultate zusammen und verarbeitet sie zu einem finalen Ergebnis.                  +                 Parallele Arbeitsprozesse und dezentrale Netzwerke Das dritte Muster zielt auf langwierige Prozesse ab. In sogenannten Agent Teams übernehmen mehrere autonome KI-Modelle völlig selbstständig Aufgaben aus einer gemeinsamen Warteschlange. Sie bearbeiten diese parallel und behalten den jeweiligen Kontext über einen längeren Zeitraum im Speicher.                  +                 Das vierte Muster strukturiert schnell wachsende Systeme. Ein Message Bus fungiert dabei als zentrale Kommunikationsschicht. Die Modelle abonnieren spezifische Themengebiete und reagieren sofort auf passende Ereignisse, was komplizierte ereignisgesteuerte Abläufe stark vereinfacht und skalierbar macht.                    +                 Das fünfte Muster trägt den Namen Shared State und verzichtet komplett auf eine zentrale Steuerungseinheit. Alle beteiligten KI-Modelle schreiben ihre Erkenntnisse direkt in einen gemeinsam genutzten Datenspeicher. Jeder Agent greift in Echtzeit auf die Ergebnisse der anderen zu, wodurch redundante Arbeit vermieden wird.                    +                 Entwickler starten zumeist mit dem hierarchischen Ansatz und passen die Architektur bei wachsenden Anforderungen schrittweise an. Wer im Detail wissen möchte, wann die einzelnen Muster optimal funktionieren und wo sie struggeln, findet die komplette Anleitung direkt bei  Anthropic .                   Anzeige]]></description>
<author>aycaramba@all-ai.de (Andreas Becker)</author>
<category>News 2026</category>
<pubDate>Fri, 10 Apr 2026 20:15:29 +0200</pubDate>
</item>
<item>
<title>Anthropics neues KI-Modell alarmiert das BSI</title>
<link>https://www.all-ai.de/news/news26/anthropic-bsi-claude-mythos</link>
<guid isPermaLink="true">https://www.all-ai.de/news/news26/anthropic-bsi-claude-mythos</guid>
<description><![CDATA[<p><img title="" src="https://www.all-ai.de/images/2-news/4-26/anthropic-mythos-bsi-1600.webp" alt="Ein Hacker"/></p> Nano Banana

                                


  
  
  

  
  
    
       
      Kurzfassung
      ▾
    

    
       
      Quellen
      ▾
    
  

  
  
    
    
      Das Unternehmen Anthropic hat ein neues KI-Modell namens Mythos vorgestellt, das extrem effizient alte Sicherheitslücken aufspürt.
Das Bundesamt für Sicherheit in der Informationstechnik (BSI) warnt vor schwerwiegenden Konsequenzen für die nationale Sicherheit.
Um Missbrauch durch Hacker zu verhindern, bleibt das KI-Modell vorerst geschlossen und wird nur von 40 Partnern getestet.
    
  

  
  
    
    
       Der Spiegel - BSI fürchtet Bedrohung durch intelligente Schwachstellen-Suchmaschine 
    
  
                     Das US-Unternehmen Anthropic hat ein neues KI-Modell namens Mythos vorgestellt, das extrem effizient verborgene Sicherheitslücken aufspürt. Diese enorme Leistungsfähigkeit ruft direkt das Bundesamt für Sicherheit in der Informationstechnik auf den Plan.                 
  
    
  
  
       Top News
    Claude Mythos schlägt Opus 4.6 um Welten
    Die Testergebnisse aus den Cybersicherheits-Benchmarks zwingen die Entwickler zu einem ungewöhnlichen Schritt.
  
     
                           Tausende Treffer in wenigen Wochen Anthropic verzeichnet mit Mythos erstaunliche Ergebnisse bei der Code-Analyse. Das KI-Modell fand innerhalb weniger Wochen Tausende kritische Schwachstellen in weitverbreiteten Betriebssystemen und Webbrowsern. Darunter befinden sich unzählige Zero-Day-Lücken, die teilweise seit zwei Jahrzehnten tief im Code versteckt blieben. Die Cybersicherheitsbranche reagiert äußerst alarmiert auf diese Leistung. BSI-Chefin Claudia Plattner betrachtet die neuen Fähigkeiten des Modells mit großer Sorge. Die Behörde erwartet durch solche fortschrittlichen KI-Modelle weitreichende Veränderungen für die gesamte Sicherheitslandschaft in Deutschland.                   Anzeige               Gefahr für die nationale Infrastruktur Das BSI konnte das KI-Modell bisher nicht in der Praxis testen. Laut Plattner steht die Behörde jedoch im direkten Austausch mit Anthropic und kennt die genaue Funktionsweise. Sie sieht erhebliche Risiken, sollten Kriminelle oder ausländische Geheimdienste bald ähnliche Modelle einsetzen können. Plattner warnt vor einer völlig neuen Bedrohungslage: »Daraus wiederum ergeben sich Fragen nationaler und europäischer Sicherheit und Souveränität.« Wenn Angreifer solche Schwachstellen schneller lokalisieren als die Hersteller, steigt die Gefahr von groß angelegtem Datendiebstahl und Erpressung drastisch. Konsequent zu Ende gedacht könnten unbekannte, klassische Softwarefehler in Zukunft sehr schnell aufgespürt und systematisch ausgenutzt werden.         Zugang bleibt vorerst limitiert Anthropic macht Mythos aus Sicherheitsgründen nicht öffentlich zugänglich. Stattdessen prüfen 40 ausgewählte Partner mit dem KI-Modell auf Schwachstellen in ihren eigenen Systemen. Zu dieser geschlossenen Gruppe gehören Branchengrößen wie Apple, Microsoft, Amazon und Nvidia. Zusätzlich erhalten IT-Sicherheitsfirmen wie Crowdstrike und Palo Alto Networks sowie die Linux-Stiftung direkten Zugang. Dieser eingeschränkte Kreis soll verhindern, dass das KI-Modell direkt für kriminelle Angriffe missbraucht wird. Entwickler von Open-Source-Projekten kämpfen bereits jetzt mit einer Flut an automatisierten Bug-Reports durch andere KI-Modelle. Der Fall Mythos zeigt eindrucksvoll, wie rasant sich diese technischen Fähigkeiten gerade weiterentwickeln.]]></description>
<author>aycaramba@all-ai.de (Andreas Becker)</author>
<category>News 2026</category>
<pubDate>Fri, 10 Apr 2026 12:12:08 +0200</pubDate>
</item>
<item>
<title>OpenAI im Visier: Florida ermittelt wegen Amoklauf</title>
<link>https://www.all-ai.de/news/news26/openai-florida-untersuchung</link>
<guid isPermaLink="true">https://www.all-ai.de/news/news26/openai-florida-untersuchung</guid>
<description><![CDATA[<p><img title="" src="https://www.all-ai.de/images/2-news/4-26/openai-florida-untersuchung-1600.webp" alt="OpenAI im Visier"/></p> Nano Banana

                                


  
  
  

  
  
    
       
      Kurzfassung
      ▾
    

    
       
      Quellen
      ▾
    
  

  
  
    
    
      Der US-Bundesstaat Florida hat eine offizielle Untersuchung gegen das KI-Unternehmen OpenAI eingeleitet.
Hintergrund ist die mutmaßliche Nutzung von ChatGPT zur Planung eines tödlichen Amoklaufs an der Florida State University im Jahr 2025.
Zusätzlich prüft Generalstaatsanwalt James Uthmeier Risiken für die nationale Sicherheit und mögliche Gefährdungen von Minderjährigen durch das KI-Modell.
Die rechtlichen Probleme treffen OpenAI in einer sensiblen Phase kurz vor einem anvisierten Börsengang.
    
  

  
  
    
    
       Reuters - Florida AG opens probe into OpenAI ahead of potential IPO 

 TechCrunch - Florida AG announces investigation into OpenAI over shooting that killed 2 at FSU 

 The Verge - Florida launches investigation into OpenAI 

 CNBC - Florida AG opens probe into OpenAI ahead of potential IPO 

 WPTV - Florida AG opens OpenAI investigation after ChatGPT records surface in FSU shooting 
    
  
                     Der US-Bundesstaat Florida hat eine offizielle Untersuchung gegen OpenAI eingeleitet. Im Zentrum steht der Vorwurf, das KI-Modell ChatGPT habe einen tödlichen Amoklauf an einer Universität erleichtert und gefährde die nationale Sicherheit.                       Chatprotokolle rücken in den Fokus Im April 2025 forderte ein Angriff auf dem Campus der Florida State University zwei Todesopfer. Fünf weitere Personen erlitten Verletzungen. Aktuelle Ermittlungen beleuchten nun die exakte Planung der Tat. Chatprotokolle belegen, dass der mutmaßliche Täter ChatGPT als strategische Informationsquelle nutzte. Er erfragte unter anderem präzise, zu welchen Uhrzeiten die Studentenvereinigung die meisten Besucher verzeichnet. Das System lieferte zudem Einschätzungen zur potenziellen Medienreaktion. Der Nutzer fragte gezielt nach der exakten Anzahl an Opfern, die für eine breite Berichterstattung erforderlich sei. OpenAI identifizierte das betreffende Konto kurz nach dem Vorfall. Das Unternehmen übergab die Daten laut eigenen Angaben umgehend und proaktiv an die zuständigen Strafverfolgungsbehörden.                   Anzeige               Nationale Sicherheit und Jugendschutz Generalstaatsanwalt James Uthmeier weitet die rechtliche Prüfung inzwischen auf grundlegende Sicherheitsaspekte aus. Er sieht die konkrete Gefahr, dass sensible Trainingsdaten und die Technologie in die Hände der chinesischen Regierung fallen könnten. Uthmeier formulierte seine Haltung zu dem Vorfall deutlich: »KI sollte die Menschheit voranbringen, nicht zerstören.« Entsprechende juristische Vorladungen an OpenAI kündigte er bereits an. Zusätzlich untersucht die Behörde den Umgang mit Minderjährigen. Im Raum stehen Verbindungen zwischen der Nutzung der Modelle und konkreten Fällen von Selbstverletzung. Das Timing der Untersuchung fällt auf. Sie startete exakt einen Tag nach der Veröffentlichung eines neuen OpenAI-Regelwerks zum Schutz von Kindern.               
  
    
  
  
       Top News
    Kampf gegen KI-Missbrauch durch neue OpenAI-Richtlinien
    Der Blueprint kombiniert rechtliche Vorgaben mit technischen Kontrollen zur Missbrauchsprävention bei der Bildgenerierung.
  
     
               Verfahren trifft auf Börsenpläne OpenAI verzeichnet nach eigenen Angaben wöchentlich über 900 Millionen aktive Nutzer. Ein Unternehmenssprecher betonte die fortlaufenden Sicherheitsmaßnahmen des Entwicklers. Er sicherte volle Kooperation mit den Behörden in Florida zu. Für das Unternehmen kommt die Auseinandersetzung zur Unzeit. Aktuell laufen die internen Vorbereitungen für einen groß angelegten Börsengang. Branchenbeobachter diskutieren dabei eine Unternehmensbewertung von bis zu einer Billion US-Dollar.]]></description>
<author>aycaramba@all-ai.de (Andreas Becker)</author>
<category>News 2026</category>
<pubDate>Fri, 10 Apr 2026 11:35:28 +0200</pubDate>
</item>
<item>
<title>KI »Terminator-1« schlägt Claude Mythos in Benchmarks</title>
<link>https://www.all-ai.de/news/beitrage2026/ki-terminator-claude-mythos</link>
<guid isPermaLink="true">https://www.all-ai.de/news/beitrage2026/ki-terminator-claude-mythos</guid>
<description><![CDATA[<p><img title="" src="https://www.all-ai.de/images/2-news/4-26/terminator-bench-1600.webp" alt="ein terminator programmiert"/></p> Nano Banana

                                


  
  
  

  
  
    
       
      Kurzfassung
      ▾
    

    
       
      Quellen
      ▾
    
  

  
  
    
    
      Der neue KI-Agent Terminator-1 erreicht absolute Rekordwerte und schlägt etablierte Modelle wie GPT-5.4 deutlich.
Forscher haben aufgedeckt, dass fast alle großen KI-Benchmarks fundamentale Sicherheitslücken aufweisen.
Die KI-Modelle lösen die Aufgaben oft nicht, sondern manipulieren die Testumgebungen durch gezieltes Reward-Hacking.
Neue Werkzeuge wie der Scanner BenchJack sollen zukünftig solche Exploits verhindern und sichere Evaluierungen garantieren.
    
  

  
  
    
    
       Moogician Blog: How We Broke Top AI Agent Benchmarks: And What Comes Next 

 Hanchen Li auf X: An agent that beats Claude Mythos on Terminal Bench and SWE-bench Verified? 

 MogicianTony auf X: SWE-bench Verified and Terminal-Bench can be reward-hacked with simple exploits 
    
  
                     Der neue KI-Agent »Terminator-1« deklassiert die gesamte Konkurrenz und erreicht nie dagewesene Spitzenwerte in Leistungstests. Doch dieser Erfolg offenbart ein fundamentales Problem der Branche. Die KI-Modelle lösen die gestellten Aufgaben oft nicht, sondern manipulieren gezielt die Testumgebungen.                       Rekordwerte auf dem Prüfstand Ein Blick auf aktuelle Leistungsauswertungen zeigt ein eindeutiges Bild. Terminator-1 dominiert die Coding-Benchmarks mit herausragenden 95,6 Punkten. Das Modell lässt damit namhafte Konkurrenten wie GPT-5.4 mit 58,0 Punkten und Claude Opus 4.6 mit 57,5 Punkten weit hinter sich. Auch Systeme wie Gemini 3.1 Pro oder Kimi K2.5 erreichen kaum mehr als die Hälfte der Punkte des Spitzenreiters.                  +           Quelle: https://moogician.github.io/               Auf den ersten Blick suggerieren diese Zahlen eine enorme technische Überlegenheit. Eine tiefergehende Analyse der Testverfahren entlarvt jedoch die Schwächen dieser Metriken. Acht der wichtigsten Evaluierungsplattformen weisen gravierende Sicherheitslücken auf. Ein speziell entwickelter Test-Agent konnte diese Schwachstellen systematisch ausnutzen. Das Ergebnis dieser Untersuchung ist alarmierend. Bei Testumgebungen wie Terminal-Bench, SWE-bench Verified oder FieldWorkArena liegt die Erfolgsquote durch bloße Exploits bei glatten 100 Prozent. Auch bei GAIA erreicht ein manipuliertes System rund 98 Prozent der Punkte. Die KI-Modelle generieren diese perfekten Bewertungen, ohne auch nur eine einzige Aufgabe regulär zu bearbeiten.                  +           Quelle: https://moogician.github.io/               Wie KI-Modelle die Regeln brechen Die Strategien der KI-Modelle ähneln klassischen Hacker-Methoden. Bei SWE-bench Verified greifen die Agenten direkt in die Teststruktur ein. Sie platzieren ein zehnzeiliges Python-Skript, welches der Bewertungslogik unabhängig vom tatsächlichen Code immer ein »Bestanden« meldet. Die Testinfrastruktur vertraut diesen gefälschten Rückmeldungen blind.                  +           Quelle: https://moogician.github.io/               Bei WebArena nutzen die Modelle eine andere Taktik. Die Testumgebung blockiert den Zugriff auf lokale Dateien im Browser nicht korrekt. Die Agenten lesen daher einfach die versteckten Lösungsdateien aus und geben diese als ihr eigenes Ergebnis an. Sie kopieren schlichtweg die korrekten Antworten.                  +           Quelle: https://moogician.github.io/               Dieses Verhalten beschränkt sich keineswegs auf theoretische Versuche. Fortschrittliche Systeme zeigen bereits aus eigenem Antrieb derartige Verhaltensmuster. Das Modell Claude Mythos suchte in Tests eigenständig nach Wegen, um sich erweiterte Systemrechte zu verschaffen. Solches Reward-Hacking entsteht als Nebenprodukt, wenn KI-Modelle stark auf das Erreichen hoher Punktzahlen trainiert werden.                   Anzeige               Das Ende der unregulierten Leaderboards Hohe Punktzahlen auf Ranglisten verlieren durch diese Erkenntnisse ihre absolute Aussagekraft. Entwickler und Investoren können sich nicht länger blind auf diese simplen Metriken verlassen. Die Testumgebungen müssen in Zukunft strikt vom Agenten isoliert arbeiten, um solche Manipulationen zu verhindern. Das System darf unter keinen Umständen die eigenen Antworten überprüfen oder Bewertungsdateien einsehen können. Um anstehende Tests abzusichern, präsentieren Forscher nun neue Kontrollsysteme. Ein Programm namens BenchJack durchleuchtet Testumgebungen vorab auf mögliche Schwachstellen. Es fungiert als Penetration-Test für Benchmarks. Entwickler prüfen damit die Integrität ihrer Evaluierungen, bevor intelligente KI-Agenten die verbleibenden Lücken finden.               
    
        Twitter Beitrag - Cookies links unten aktivieren.
    
 SWE-bench Verified and Terminal-Bench—two of the most cited AI benchmarks—can be reward-hacked with simple exploits. Our agent scored 100% on both. It solved 0 tasks. Evaluate the benchmark before it evaluates your agent. If you’re picking models by leaderboard score alone,… pic.twitter.com/TMPaDMfth6 &mdash; Hao Wang (@MogicianTony) April 9, 2026]]></description>
<author>aycaramba@all-ai.de (Andreas Becker)</author>
<category>Top Beitraege 2026</category>
<pubDate>Fri, 10 Apr 2026 11:02:16 +0200</pubDate>
</item>
<item>
<title>Neuer Pro-Tarif für ChatGPT kostet 103 Euro</title>
<link>https://www.all-ai.de/news/news26/chatgpt-100-pro-tarif</link>
<guid isPermaLink="true">https://www.all-ai.de/news/news26/chatgpt-100-pro-tarif</guid>
<description><![CDATA[<p><img title="" src="https://www.all-ai.de/images/2-news/4-26/chatgpt-pro-100-1600.webp" alt="chatgpt pro tarife"/></p> Nano Banana

                                


  
  
  

  
  
    
       
      Kurzfassung
      ▾
    

    
       
      Quellen
      ▾
    
  

  
  
    
    
      OpenAI führt einen neuen Pro-Tarif für 103 Euro ein, der den bestehenden 206-Euro-Plan
Der neue Plan beinhaltet den vollen Zugriff auf Premium-Funktionen wie GPT-5.4 Pro, erweiterte Sora-Videogenerierung und unlimitierte Bildgenerierung.
Gleichzeitig passt OpenAI den Plus-Plan an, um eine kontinuierliche, alltägliche Codex-Nutzung anstelle von extrem langen Einzelsitzungen zu fördern.
    
  

  
  
    
    
       X - Ankündigung von OpenAI 
    
  
                     OpenAI führt eine neue Preisstufe für das ChatGPT Pro-Abonnement ein und passt gleichzeitig die Nutzungsbedingungen für das günstigere Plus-Abo an. Der neue Tarif richtet sich gezielt an Entwickler mit hohem Bedarf an Codex-Kapazitäten.                 
    
        Twitter Beitrag - Cookies links unten aktivieren.
    
 We’re updating our ChatGPT Pro and Plus subscriptions to better support the growing use of Codex. We’re introducing a new $100/month Pro tier. This new tier offers 5x more Codex usage than Plus and is best for longer, high-effort Codex sessions.  In ChatGPT, this new Pro tier…&mdash; OpenAI (@OpenAI) April 9, 2026                              Zwei Stufen für Codex Genau für diese Power-User positioniert OpenAI den neuen Tarif für 103 Euro. Dieser bietet die fünffache Codex-Nutzungszeit im Vergleich zu Plus. Wer noch mehr Leistung benötigt, wählt für 206 Euro die bisherige Variante mit der zwanzigfachen Kapazität. Bis Ende Mai erhöht eine Aktion das Kontingent des neuen Tarifs sogar auf das Zehnfache. Diese massiven Limits verhindern, dass Anwender bei ausgedehnten Sitzungen blockiert werden.                  +           Quelle: OpenAI               Premium-Funktionen der Pro-Klasse Unabhängig von der gewählten Stufe schaltet das Pro-Abonnement den Zugriff auf das exklusive KI-Modell GPT-5.4 Pro frei. Abonnenten generieren zudem unbegrenzt Bilder, laden beliebig viele Dateien hoch und greifen auf die erweiterte Sora-Videogenerierung zu.                   Anzeige               Anpassungen für das Plus-Abo Parallel justiert das Unternehmen die Kapazitäten im regulären Plus-Abonnement. Die Codex-Nutzung wird hierbei neu ausbalanciert, um regelmäßige Sitzungen über die gesamte Woche hinweg besser zu unterstützen. Der Fokus verlagert sich somit von langen einzelnen Tages-Sitzungen hin zu einer kontinuierlichen Arbeitsweise.  Der neue Pro-Tarif kann in Deutschland bereits ausgewählt werden.]]></description>
<author>aycaramba@all-ai.de (Andreas Becker)</author>
<category>News 2026</category>
<pubDate>Thu, 09 Apr 2026 21:30:21 +0200</pubDate>
</item>
<item>
<title>Microsoft Studie: Angestellte werden zu KI-Kuratoren</title>
<link>https://www.all-ai.de/news/beitrage2026/microsoft-studie-ki-kuratoren</link>
<guid isPermaLink="true">https://www.all-ai.de/news/beitrage2026/microsoft-studie-ki-kuratoren</guid>
<description><![CDATA[<p><img title="" src="https://www.all-ai.de/images/2-news/4-26/microsoft-ki-studie-1600.webp" alt="4 Personen"/></p> Nano Banana

                                


  
  
  

  
  
    
       
      Kurzfassung
      ▾
    

    
       
      Quellen
      ▾
    
  

  
  
    
    
      Microsofts neuer Bericht belegt, dass KI-Modelle die Arbeitsweise vom eigenständigen Erstellen zum Kuratieren von Inhalten verschieben.
Anwender sparen täglich bis zu 60 Minuten, kämpfen aber häufig mit fehlerhaften KI-Ergebnissen, dem sogenannten »Workslop«.
Berufsanfänger sind stark betroffen, da die Beschäftigung von jungen Fachkräften in KI-exponierten Bereichen drastisch um 16 Prozent sinkt.
    
  

  
  
    
    
       Microsoft: New Future of Work: AI is driving rapid change, uneven benefits 
    
  
                     Microsofts aktueller »New Future of Work«-Report belegt eine tiefgreifende Verschiebung in der Arbeitswelt. KI-Modelle beschleunigen Abläufe nicht mehr nur, sondern zwingen Angestellte in eine neue Rolle als Kuratoren, was messbare Folgen für den Arbeitsmarkt hat.                       Kuratieren statt kreieren Angestellte schreiben Texte oder Code zunehmend seltener von Grund auf neu. Stattdessen bewerten, korrigieren und steuern sie die Ausgaben der KI-Modelle. In der Softwareentwicklung etabliert sich dabei zunehmend das sogenannte Vibe Coding. Entwickler generieren Programme durch gezieltes Prompting, anstatt die Zeilen selbst zu tippen. Erfahrene Fachkräfte profitieren von dieser Entwicklung stark. Sie erkennen strukturelle Fehler schneller und delegieren komplexe Teilaufgaben präziser. Die rein menschliche Urteilskraft gewinnt in einem solchen Arbeitsumfeld deutlich an Relevanz.                   Anzeige               Konkrete Gewinne und neues Qualitätsrisiko Die veränderte Arbeitsweise liefert bereits messbare Ergebnisse. In KI nahen Unternehmensumfeldern sparen Anwender täglich zwischen 40 und 60 Minuten Arbeitszeit ein. Laut einer Umfrage nutzen in Deutschland bereits 38 Prozent der Beschäftigten KI-Modelle im beruflichen Alltag. Gleichzeitig wächst ein spezifisches Problem heran. In einer US-amerikanischen Erhebung gaben 40 Prozent der Angestellten an, im vergangenen Monat sogenannten »Workslop« erhalten zu haben. Dabei handelt es sich um KI-generierte Inhalte, die optisch professionell wirken, inhaltlich jedoch fehlerhaft oder völlig unbrauchbar sind. Jegliche Zeitersparnis löst sich bei der zwingend notwendigen Fehlerkorrektur schnell wieder auf.         Der Schwund an Einstiegspositionen Die Automatisierung von Routineaufgaben trifft Berufsanfänger auf dem Arbeitsmarkt besonders hart. Positionen, die wenig Vorwissen erfordern, lassen sich leicht an KI-Modelle auslagern. Empirische Daten zeigen einen Beschäftigungsrückgang von 16 Prozent bei den 22- bis 25-Jährigen in stark KI-exponierten Berufen. Unternehmen fahren Neueinstellungen für reine Junior-Positionen nach der Einführung von KI-Modellen spürbar zurück. Dieser Trend wirft für die Zukunft relevante strukturelle Fragen auf. Da der klassische Weg zum Aufbau von Fachexpertise über einfache Einstiegsaufgaben wegbricht, erfordert die moderne Arbeitswelt völlig neue Konzepte für den Wissenstransfer.]]></description>
<author>aycaramba@all-ai.de (Andreas Becker)</author>
<category>Top Beitraege 2026</category>
<pubDate>Thu, 09 Apr 2026 18:51:18 +0200</pubDate>
</item>
<item>
<title>OpenAI stoppt »Stargate UK«</title>
<link>https://www.all-ai.de/news/news26/openai-stargate-uk-stopp</link>
<guid isPermaLink="true">https://www.all-ai.de/news/news26/openai-stargate-uk-stopp</guid>
<description><![CDATA[<p><img title="" src="https://www.all-ai.de/images/2-news/4-26/openai-stargate-uk-1600.webp" alt="Ein kaputtes Stargate in London"/></p> Nano Banana

                                


  
  
  

  
  
    
       
      Kurzfassung
      ▾
    

    
       
      Quellen
      ▾
    
  

  
  
    
    
      OpenAI pausiert den Bau des geplanten KI-Rechenzentrums »Stargate UK« in Großbritannien.
Als Hauptgründe nennt das Unternehmen die zu hohen Energiekosten sowie unklare regulatorische Rahmenbedingungen.
Der Stopp reiht sich in massive Budgetkürzungen beim globalen Infrastrukturprojekt und eine kürzliche Bauabsage in Texas ein.
    
  

  
  
    
    
       Bloomberg: openai-pauses-stargate-uk-data-center-effort-citing-energy-costs 
    
  
                     OpenAI legt den Ausbau seiner britischen Infrastruktur auf Eis. Hohe Energiekosten und regulatorische Hürden zwingen das Unternehmen laut Informationen von Bloomberg dazu, das geplante KI-Rechenzentrum »Stargate UK« vorerst zu pausieren.                       Lokale KI-Modelle für Großbritannien OpenAI präsentierte das Vorhaben erst im September des vergangenen Jahres. Zusammen mit Nvidia und der britischen Regierung plante das Unternehmen den Aufbau lokaler Rechenkapazitäten. Das Hauptziel war der Betrieb von KI-Modellen direkt auf der Insel. Dies ist besonders für spezifische Anwendungsfälle relevant, bei denen die nationale Rechtshoheit greift. Aufgrund der aktuellen Strompreise und unklarer Regularien stoppt der Bau nun auf unbestimmte Zeit. OpenAI will die Rahmenbedingungen weiterhin prüfen und bei fallenden Kosten reagieren.                   Anzeige               Finanzierungsprobleme und gekürzte Budgets Der KI-Entwickler kämpft bei seinem globalen Infrastrukturprogramm derzeit an mehreren Fronten mit Hindernissen. Ursprünglich planten OpenAI und Partner wie SoftBank, Oracle sowie MGX ein Budget von 500 Milliarden US-Dollar ein. Im Juli 2025 reduzierten die Beteiligten diese Summe jedoch auf 100 Milliarden US-Dollar. SoftBank-CEO Masayoshi Son räumte kurz darauf ein, dass bislang kein Teil des vorgesehenen Kapitals zur Verfügung stehe. Dies verzögert den Bau der Rechenzentren erheblich. Die Probleme zeigen sich bereits konkret in der Praxis. Erst vor einem Monat stornierte OpenAI die Pläne für einen neuen Rechenzentrums-Campus in Abilene im US-Bundesstaat Texas.         Unklare Perspektiven in Europa Auch andere Regionen sind Teil der Expansionsstrategie. Bis Ende 2026 soll im norwegischen Kvandal ein Rechenzentrum entstehen, das komplett mit Energie aus Wasserkraft läuft. Darüber hinaus führte OpenAI erste Gespräche mit Ländern wie Griechenland, der Slowakei und den Vereinigten Arabischen Emiraten über den Ausbau von Kapazitäten. Ob diese internationalen Vorhaben durch die aktuelle Kostenentwicklung auf dem Energiemarkt ebenfalls gefährdet sind, ist derzeit noch nicht bekannt.]]></description>
<author>aycaramba@all-ai.de (Andreas Becker)</author>
<category>News 2026</category>
<pubDate>Thu, 09 Apr 2026 18:38:58 +0200</pubDate>
</item>
<item>
<title>Perplexity verknüpft seine KI mit privaten Finanzdaten</title>
<link>https://www.all-ai.de/news/news26/perplexity-finanzen-dashboard</link>
<guid isPermaLink="true">https://www.all-ai.de/news/news26/perplexity-finanzen-dashboard</guid>
<description><![CDATA[<p><img title="" src="https://www.all-ai.de/images/2-news/4-26/perplexity-finanzen-1600.webp" alt="Ein Perplexity Dashboard"/></p> Nano Banana

                                


  
  
  

  
  
    
       
      Kurzfassung
      ▾
    

    
       
      Quellen
      ▾
    
  

  
  
    
    
      Perplexity integriert das Finanzdatennetzwerk Plaid für einen Lesezugriff auf über 12.000 Finanzinstitute.
Die agentenbasierte Funktion Computer analysiert die verknüpften Bankkonten, Kreditkarten und Kredite der Nutzer.
Anwender erstellen über Prompts interaktive Dashboards, Budget-Tracker und Pläne für den Schuldenabbau.
Die Verknüpfung startet zunächst in Nordamerika, wobei tiefgreifende Analysen ein Pro- oder Max-Abonnement voraussetzen.
    
  

  
  
    
    
       Perplexity Blog - Plaid integration provides full view of personal finances 

 X - Perplexity kündigt Plaid-Integration an 

 Perplexity Blog - The AI is the Computer 
    
  
                     Perplexity erweitert seine Plattform um direkte Schnittstellen zu privaten Bankkonten, Kreditkarten und Darlehen. Über das Netzwerk Plaid verknüpft das KI-Modell persönliche Finanzdaten und analysiert das Ausgabeverhalten nun direkt auf Zuruf der Nutzer.                       Zentrale Finanzübersicht statt vieler Apps Anwender bündeln ihre Finanzdaten ab sofort an einem Ort, anstatt zwischen verschiedenen Banking-Apps zu wechseln. Die Anbindung erfolgt über das Netzwerk Plaid. Dieses ermöglicht den Zugriff auf über 12.000 Finanzinstitute wie Robinhood, Chase oder Vanguard. Die Plattform erhält bei dieser Verknüpfung ausschließlich einen reinen Lesezugriff auf die hinterlegten Informationen. Nutzerdaten gelangen dabei nach offiziellen Angaben nicht auf die Server des Suchmaschinenbetreibers. Die KI-Modelle im Hintergrund werten die Datenpunkte lediglich temporär aus, um ein tagesaktuelles Gesamtbild des Nettovermögens zu berechnen.               
    
        Twitter Beitrag - Cookies links unten aktivieren.
    
 Computer now connects with Plaid to link bank accounts, credit cards, and loans. Track spending in detail, build custom budget tools, and visualize your net worth alongside your investment portfolio. pic.twitter.com/m9nws4VjKO &mdash; Perplexity (@perplexity_ai) April 9, 2026                  Prompts steuern komplexe Analysen Die detaillierte Auswertung übernimmt eine agentenbasierte Funktion namens »Computer«. Anwender formulieren textbasierte Prompts, um individuelle Dashboards oder Budget-Tracker in dieser eigenständigen Arbeitsumgebung zu generieren. Das System kategorisiert so gezielt Ausgaben für Lebensmittel oder Miete und visualisiert diese Ergebnisse in interaktiven Diagrammen. Zusätzlich berechnet die Funktion konkrete Pläne zum Schuldenabbau oder erstellt Prognosen für den zukünftigen Cashflow. Diese Analysen basieren auf aktuellen Marktdaten aus verifizierten Quellen wie FactSet oder S&amp;P Global. Fahren Nutzer mit der Maus über eine generierte Kennzahl, blendet die Benutzeroberfläche die Originalquelle direkt zum Nachlesen ein.                   Anzeige               Verfügbarkeit für Abonnenten Die neuen Finanzfunktionen starten zunächst für Desktop-Nutzer in den USA und Kanada. Eine Ausweitung auf mobile Geräte sowie weitere Länder ist bereits in Planung. Die grundlegende Verknüpfung des Portfolios sowie einfache Abfragen stehen allen angemeldeten Nutzern kostenlos zur Verfügung. Die tiefgreifenden Analysen durch die Computer-Umgebung bleiben jedoch zahlenden Pro- und Max-Abonnenten vorbehalten.]]></description>
<author>aycaramba@all-ai.de (Andreas Becker)</author>
<category>News 2026</category>
<pubDate>Thu, 09 Apr 2026 17:50:01 +0200</pubDate>
</item>
<item>
<title>HeyGen dominiert mit »Avatar V« die Benchmarks</title>
<link>https://www.all-ai.de/news/news26/heygen-5-v-avatar-ki</link>
<guid isPermaLink="true">https://www.all-ai.de/news/news26/heygen-5-v-avatar-ki</guid>
<description><![CDATA[<p><img title="" src="https://www.all-ai.de/images/2-news/4-26/heygen-5-1600.webp" alt="ein heygen 5 avatar"/></p> Nano Banana

                                


  
  
  

  
  
    
       
      Kurzfassung
      ▾
    

    
       
      Quellen
      ▾
    
  

  
  
    
    
      HeyGen veröffentlicht das neue KI-Modell Avatar V für die Erstellung digitaler Zwillinge.
Die Software nutzt ein 15-sekündiges Video als Basis und verhindert so den typischen Identitätsverlust bei langen Laufzeiten.
Ein technischer Bericht zeigt, dass Avatar V Konkurrenten wie Kling O3 Pro und Veo 3.1 in direkten Vergleichen deutlich schlägt.
Das System erreicht in allen gemessenen Metriken, darunter Lippensynchronisation und Identitätswahrung, die Spitzenposition.
    
  

  
  
    
    
       HeyGen: Avatar V - The next generation of your digital self 

 X: HeyGen Status Update 

 X: Joshua Xu Status Update 
    
  
                     HeyGen veröffentlicht mit Avatar V ein völlig neues KI-Modell für digitale Zwillinge. Das System nutzt einen fortlaufenden Videokontext anstelle von Einzelfotos. In aktuellen Benchmarks deklassiert das KI-Modell namhafte Konkurrenten deutlich.                       Videokontext liefert stabile Identität Bisherige KI-Modelle generierten Avatare meistens auf Basis eines statischen Bildes. Avatar V wertet hingegen ein komplettes Kontextfenster aus einem simplen 15-sekündigen Webcam-Video aus. Das System erfasst so die natürliche Mimik, den Sprachrhythmus und komplexe Bewegungsmuster präzise. Ein selektiver Aufmerksamkeitsmechanismus filtert die besten Identitätssignale aus dem Material heraus. Das Modell blendet unscharfe oder schlecht beleuchtete Frames automatisch aus. So entsteht eine äußerst stabile Basis für dynamische Szenen mit wechselnden Kameraperspektiven. Diese Video-Architektur verhindert den berüchtigten »Identity Drift«. Bei älteren Systemen schwand die Ähnlichkeit zur Originalperson mit zunehmender Laufzeit. Avatar V hält die exakten Gesichtszüge auch bei Videos von über 30 Minuten Länge absolut stabil.               
    
        Twitter Beitrag - Cookies links unten aktivieren.
    
 Introducing Avatar V. We’ve solved character consistency. Forever. Record yourself once for 15 seconds. From there, you can show up anywhere, in any look, and it still feels like you. Any photo becomes a video that looks, moves, and speaks like you, down to your mannerisms and… pic.twitter.com/qQsWlRoOkw &mdash; Joshua Xu (@joshua_xu_) April 8, 2026                  Sieg im direkten Benchmark-Vergleich Ein aktueller technischer Bericht liefert konkrete Zahlen zur Leistungsfähigkeit des KI-Modells. Im etablierten MOS-Vergleich erreicht Avatar V den Spitzenwert von 4,98 Punkten bei der Identitätswahrung. Die phonemgenaue Lippensynchronisation sichert sich mit 4,69 Punkten ebenfalls den ersten Platz. Das System belegt in allen sechs gemessenen Kategorien die klare Spitzenposition.                  +           Quelle: HeyGen               Die technische Überlegenheit zeigt sich besonders in der direkten Gegenüberstellung mit anderen KI-Modellen. Im Duell mit Kling O3 Pro bevorzugen die Tester Avatar V in 69,6 Prozent der Fälle. Im Vergleich mit Veo 3.1 gewinnt das neue Modell sogar in 72,5 Prozent der Testläufe. Gegenüber OmniHuman 1.5 liegt die Siegquote bei beeindruckenden 85,7 Prozent. Anwender erhalten somit eine verlässliche Lösung für professionelle Videoproduktionen ohne teure Studioaufnahmen.                  +           Quelle: HeyGen                         Anzeige]]></description>
<author>aycaramba@all-ai.de (Andreas Becker)</author>
<category>News 2026</category>
<pubDate>Thu, 09 Apr 2026 13:28:08 +0200</pubDate>
</item>
<item>
<title>Geheimes OpenAI-Modell löst fünf komplexe Erdős-Probleme</title>
<link>https://www.all-ai.de/news/beitrage2026/openai-modell-mathe-probleme</link>
<guid isPermaLink="true">https://www.all-ai.de/news/beitrage2026/openai-modell-mathe-probleme</guid>
<description><![CDATA[<p><img title="" src="https://www.all-ai.de/images/2-news/4-26/openai-research-mathematik-1600.webp" alt="Wissenschaftler von OpenAI"/></p> Nano Banana

                                


  
  
  

  
  
    
       
      Kurzfassung
      ▾
    

    
       
      Quellen
      ▾
    
  

  
  
    
    
      Ein internes KI-Modell von OpenAI hat fünf weitere mathematische Fragestellungen des Mathematikers Paul Erdős gelöst.
Ein Forschungsteam dokumentiert die originären Beweise aus Bereichen wie Kombinatorik und Zahlentheorie in einem neu veröffentlichten Paper.
Interne Vergleiche belegen, dass das unveröffentlichte System das aktuelle ChatGPT-5.4 Pro im mathematischen Reasoning deutlich übertrifft.
    
  

  
  
    
    
       arXiv Abstract – Short proofs in combinatorics, probability and number theory II 

 arXiv HTML – Short proofs in combinatorics, probability and number theory II 

 Sébastien Bubeck auf X – We’ve just released another paper... 
    
  
                     Ein internes KI-Modell von OpenAI hat fünf ungelöste mathematische Rätsel des ungarischen Mathematikers Paul Erdős geknackt. Ein Forscherteam des Unternehmens dokumentiert die detaillierten Beweise in einem am 8. April 2026 veröffentlichten Paper.                       Fortschritte im mathematischen Reasoning Das 28-seitige Manuskript liefert neue Resultate aus der Kombinatorik, der Zahlentheorie und der Wahrscheinlichkeitsrechnung. Die wissenschaftlichen Autoren Boris Alexeev, Moe Putterman, Mehtaab Sawhney, Mark Sellke und Gregory Valiant ordnen die Ergebnisse präzise in die bestehende Literatur ein. Alle fünf komplexen Herleitungen stammen originär von einem unangekündigten, internen KI-Modell. Die Fragestellungen umfassen unter anderem planare Punktmengen, Sequenzen mit kleinen Exponentialsummen und einen speziellen Endlichkeitssatz über Primzahlen. Sébastien Bubeck hebt das sogenannte Erdős-Problem 1091 über seine Kanäle auf X besonders hervor. Das Modell fand dort ein valides Gegenbeispiel zu einer langjährigen Vermutung über Graphenstrukturen. Bubeck nennt den konkreten Lösungsweg »besonders aufschlussreich«. Das Modell Codex zeichnete zudem für eine der zentralen Abbildungen im Text verantwortlich.               
    
        Twitter Beitrag - Cookies links unten aktivieren.
    
 We’ve just released another paper solving five further Erdős problems with an internal model at OpenAI: https://t.co/yq5kb4wSNL. Several of the proofs were especially enjoyable to digest while writing the paper. My personal favorite was the solution to Erdős Problem 1091. The… pic.twitter.com/NWhkHfoTcx &mdash; Mehtaab Sawhney (@mehtaab_sawhney) April 9, 2026                  Diese Vielfalt an mathematischen Disziplinen demonstriert die wachsende Fähigkeit dieser KI-Modelle, domänenübergreifend logische Schlüsse zu ziehen. Mathematiker können die maschinell erstellten Lösungswege nun eigenständig nachvollziehen und überprüfen.           Direkter Vergleich mit aktuellen Modellen Um die mathematische Leistung messbar einzuordnen, setzten die Wissenschaftler im Anschluss zusätzlich ChatGPT-5.4 Pro ein. Das öffentlich zugängliche System durchlief für jedes der fünf betrachteten Erdős-Probleme fünf unabhängige Testläufe mit identischen Prompts. Die genaue Auswertung offenbart klare Unterschiede zwischen den Modellgenerationen. ChatGPT-5.4 Pro lieferte lediglich beim Endlichkeitssatz von Primzahlen, dem Problem 1141, vollständige und konsistente Reproduktionen. Bei der Aufgabe rund um Punktmengen erzielte es zumindest einen fachlichen Teilerfolg, da es bestimmte Bedingungen des Problems überging. Die restlichen drei komplexen Beweise blieben komplett dem internen KI-Modell vorbehalten. Die transparente Veröffentlichung trennt somit faktisch zwischen etablierten Systemen und den kommenden KI-Fähigkeiten. Mathematiker und Informatiker erhalten dadurch einen klaren Einblick in die aktuellen Leistungsgrenzen der Technologie.                   Anzeige]]></description>
<author>aycaramba@all-ai.de (Andreas Becker)</author>
<category>Top Beitraege 2026</category>
<pubDate>Thu, 09 Apr 2026 10:40:33 +0200</pubDate>
</item>
<item>
<title>Zwei neue Google-Agenten bewerten wissenschaftliche Facharbeiten</title>
<link>https://www.all-ai.de/news/beitrage2026/google-facharbeiten-bewertung</link>
<guid isPermaLink="true">https://www.all-ai.de/news/beitrage2026/google-facharbeiten-bewertung</guid>
<description><![CDATA[<p><img title="" src="https://www.all-ai.de/images/2-news/4-26/google-paper-1600.webp" alt="zwei agenten überprüfen ein paper"/></p> Nano Banana

                                


  
  
  

  
  
    
       
      Kurzfassung
      ▾
    

    
       
      Quellen
      ▾
    
  

  
  
    
    
      Zwei neue KI-Modelle optimieren ab sofort den akademischen Publikationsprozess.
PaperVizAgent generiert aus methodischen Texten fertige wissenschaftliche Grafiken und schlägt im Benchmark menschliche Basiswerte.
ScholarPeer automatisiert das Peer-Review-Verfahren durch aktive Websuchen und gezielte inhaltliche Fehleranalyse.
Beide Agenten-Systeme gelten aktuell noch als experimentelle Prototypen für die Forschung.
    
  

  
  
    
    
       Google Research Blog - Improving the academic workflow: Introducing two AI agents for better figures and peer review 

 arXiv - ScholarPeer (PDF) 

 arXiv - PaperVizAgent (PDF) 
    
  
                     Google stellt zwei neue KI-Modelle vor, die Forschern ab sofort zeitaufwendige Routineaufgaben im akademischen Publikationsprozess abnehmen. Ein Agenten-System erstellt druckreife Grafiken direkt aus Texten, während ein zweites Modell die erste kritische Begutachtung wissenschaftlicher Facharbeiten übernimmt.                       Grafiken auf akademischem Niveau PaperVizAgent wandelt komplexe Methodik-Beschreibungen in fertige Diagramme um. Das KI-Modell besteht intern aus einem Team von fünf spezialisierten Agenten, die nach passenden Referenzen suchen, den grafischen Aufbau planen und das vorläufige Bild prüfen. Findet der bewertende Agent inhaltliche Fehler, startet das System umgehend einen automatischen Korrekturvorgang. Erst wenn alle technischen Spezifikationen erfüllt sind, gibt die Software die Datei frei.                  +           Quelle: Google               In offiziellen Benchmarks erreicht das System bei der visuellen Umsetzung einen Gesamtwert von 60,2 Punkten. Damit übertrifft PaperVizAgent die etablierte menschliche Basislinie von exakt 50,0 Punkten spürbar. Andere KI-Modelle wie Nano-Banana-Pro mit 43 Punkten oder GPT-Image-1.5 mit lediglich 11 Punkten landen in der Gesamtbewertung deutlich dahinter. Auch bei den Einzelkategorien wie Prägnanz und Ästhetik erzielt das neue System aktuell Spitzenwerte.                    +           Quelle: Google               Automatisierte Gutachten Das zweite KI-Modell trägt den Namen ScholarPeer und fokussiert sich auf die tiefgreifende Textanalyse. Es simuliert die strenge Arbeitsweise erfahrener Gutachter bei einem Peer-Review, indem ein integrierter Agent die eingereichte Arbeit aktiv über eine Websuche mit der aktuellen Fachliteratur abgleicht. Ein zweiter interner Prüfer sucht parallel gezielt nach fehlenden Datensätzen oder bewusst ausgelassenen Vergleichsstudien.                  +           Quelle: Google               Im Anschluss prüft das KI-Modell die technischen Behauptungen der Autoren auf ihre inhaltliche Stichhaltigkeit. Am Ende generiert das System ein detailliertes Gutachten mit Stärken, Schwächen und kritischen Rückfragen. Aktuell gelten beide KI-Modelle allerdings noch als rein experimentelle Prototypen. Sie dienen primär der Evaluierung und fällen keine abschließenden Entscheidungen über eine Veröffentlichung.                   Anzeige]]></description>
<author>aycaramba@all-ai.de (Andreas Becker)</author>
<category>Top Beitraege 2026</category>
<pubDate>Thu, 09 Apr 2026 10:12:21 +0200</pubDate>
</item>
<item>
<title>Claude Managed Agents übernehmen die Infrastruktur für KI-Entwickler</title>
<link>https://www.all-ai.de/news/news26/cluade-managed-agents-neu</link>
<guid isPermaLink="true">https://www.all-ai.de/news/news26/cluade-managed-agents-neu</guid>
<description><![CDATA[<p><img title="" src="https://www.all-ai.de/images/2-news/4-26/anthropic-managed-agents-1600.webp" alt="Eine Anthropic Grafik mit mehreren Agents"/></p> Nano Banana

                                


  
  
  

  
  
    
       
      Kurzfassung
      ▾
    

    
       
      Quellen
      ▾
    
  

  
  
    
    
      Die neuen Claude Managed Agents übernehmen die komplette Infrastruktur für Cloud-basierte KI-Agenten.
Entwickler sparen sich die Konfiguration von Sandboxing und Authentifizierung und können Projekte deutlich schneller abschließen.
Das System unterstützt autonome Sitzungen über mehrere Stunden und bietet eine experimentelle Multi-Agenten-Koordination.
Zusätzlich zu den regulären Token-Kosten fallen 0,08 US-Dollar pro Sitzungsstunde an.
    
  

  
  
    
    
       Anthropic - Claude Managed Agents: get to production 10x faster 
    
  
                     Entwickler bauen und skalieren Cloud-basierte KI-Agenten jetzt direkt auf der Claude Platform. Die neuen Managed Agents übernehmen die komplette Infrastruktur und reduzieren die Entwicklungszeit vom Prototyp bis zum Launch erheblich.                       Fokus auf den Code Nutzer definieren Aufgaben, verfügbare Funktionen sowie Sicherheitsrichtlinien für ihre KI-Modelle. Die Plattform orchestriert anschließend den gesamten Ablauf im Hintergrund. Sie entscheidet selbstständig über nötige Funktionsaufrufe, verwaltet den gesamten Kontext und fängt mögliche Fehler ab. Bisher kosteten Sandboxing, Authentifizierung und das strikte Verwalten von Zugriffsrechten wertvolle Entwicklungszeit. Die Managed Agents lagern diese komplexen Prozesse vollständig aus. Die Sitzungen laufen über Stunden autonom weiter. Selbst bei plötzlichen Verbindungsabbrüchen bleiben Fortschritte und generierte Ausgaben sicher erhalten.               
  
  
               Koordination und messbare Erfolge Ein exklusives Forschungs-Preview ermöglicht bereits eine frühe Multi-Agenten-Koordination. Dabei starten KI-Agenten weitere Agenten und delegieren komplexe Aufgaben für eine nahtlose parallele Bearbeitung. Claude evaluiert Ergebnisse eigenständig und passt seine Lösungswege dynamisch an das Ziel an. Interne Tests zeigen einen messbaren Vorteil gegenüber klassischen Prompting-Schleifen. Bei der strukturierten Dateigenerierung stieg die Erfolgsquote um bis zu zehn Punkte. Die größten Verbesserungen verzeichnete das System bei besonders schwierigen Problemstellungen. Sentry entwickelte beispielsweise auf dieser Basis in wenigen Wochen einen Debugging-Agenten, der Fehler identifiziert und direkt den passenden Code für den Review-Prozess schreibt.               
  
  
               Abrechnung nach Nutzungsdauer Die Managed Agents stehen als Public Beta für interessierte Entwickler bereit. Sie integrieren sich direkt in die bestehende Umgebung der Claude Console. Das System erfasst dabei detaillierte Analysen und hilft bei der Fehlersuche. Entwickler zahlen für den Betrieb weiterhin die regulären Token-Preise der Plattform. Zusätzlich berechnet der Anbieter 0,08 US-Dollar pro Sitzungsstunde für die aktive Laufzeit.                   Anzeige]]></description>
<author>aycaramba@all-ai.de (Andreas Becker)</author>
<category>News 2026</category>
<pubDate>Wed, 08 Apr 2026 19:55:34 +0200</pubDate>
</item>
<item>
<title>Meta veröffentlicht striktes Regelwerk für autonome KI-Modelle</title>
<link>https://www.all-ai.de/news/news26/meta-security-ki-modelle-muse-spark</link>
<guid isPermaLink="true">https://www.all-ai.de/news/news26/meta-security-ki-modelle-muse-spark</guid>
<description><![CDATA[<p><img title="" src="https://www.all-ai.de/images/2-news/4-26/meta-muse-sicherheit-1600.webp" alt="Ein Lama hat zu Ende"/></p> Nano Banana

                                


  
  
  

  
  
    
       
      Kurzfassung
      ▾
    

    
       
      Quellen
      ▾
    
  

  
  
    
    
      Meta stellt ein neues Sicherheits-Framework vor, das KI-Modelle auf Autonomie-Risiken und einen potenziellen Kontrollverlust prüft.
Das Modell Muse Spark nutzt fortschrittliches Reasoning, um den eigentlichen Sinn hinter den Sicherheitsregeln zu verstehen und anzuwenden.
Umfangreiche Tests belegen, dass das Modell keine gefährlichen autonomen Fähigkeiten besitzt und in seinen Antworten ideologisch ausgewogen bleibt.
    
  

  
  
    
    
       Meta: Scaling How We Build and Test Our Most Advanced AI 

 Meta Sicherheits PDF 
    
  
                     Meta veröffentlicht ein überarbeitetes, strikteres Sicherheits-Framework für seine fortschrittlichen KI-Modelle. Im Zentrum der Ankündigung steht das neue Modell Muse Spark, welches komplexe Schutzrichtlinien durch logisches Schlussfolgern flexibel und eigenständig anwendet.                 
  
    
  
  
       Top News
    Meta beendet mit »Muse Spark« die Llama-Ära
    Das neue KI-Modell setzt auf parallele Agenten und übertrifft die Konkurrenz in wichtigen Benchmarks.
  
     
                           Neue Standards für Autonomie Das »Advanced AI Scaling Framework« erweitert die bisherigen Bewertungsmaßstäbe für technologische Risiken spürbar. Das System prüft die Modelle nun gezielt auf einen möglichen Kontrollverlust durch eigenständiges Handeln. Die Entwickler untersuchen intensiv, ob die eingebauten Mechanismen bei einer höheren Autonomie der KI verlässlich intakt bleiben. Zusätzlich decken die strengen Vorgaben chemische, biologische und cyberspezifische Bedrohungen ab. Nur Modelle, die sämtliche Anforderungen dieser umfassenden Tests zweifelsfrei erfüllen, erhalten eine offizielle Freigabe. Das gilt für offene Varianten ebenso wie für kontrollierte API-Zugänge.                  +           Quelle: Meta               Muse Spark und der Reasoning-Ansatz Das Unternehmen begleitet die Einführung von Muse Spark mit einem detaillierten Vorbereitungsbericht. Dieses Dokument schlüsselt die genauen Ergebnisse der internen Sicherheitsprüfungen transparent auf. Die Teams testeten das Modell dabei sowohl vor als auch nach der Aktivierung der Schutzfunktionen. Muse Spark nutzt fortschrittliches Reasoning, um den tiefen Sinn hinter den Richtlinien zu erfassen. Frühere KI-Modelle lernten bei kritischen Prompts lediglich eine vordefinierte Ablehnung. Das neue Modell verarbeitet hingegen direkt das »Warum« einer Regelung. Dadurch bewältigt die künstliche Intelligenz völlig unbekannte Situationen deutlich präziser als rein regelbasierte Systeme. Die bisherigen Auswertungen bescheinigen dem Modell starke Schutzmechanismen über alle gemessenen Risikokategorien hinweg. Die Tests zeigen klar, dass Muse Spark nicht über die nötigen Fähigkeiten für ein gefährliches autonomes Handeln verfügt. Weiterhin belegen die Daten eine hohe ideologische Ausgewogenheit bei den generierten Inhalten.                   Anzeige               Menschliche Aufsicht ergänzt die Technik Trotz der neuen Architektur steuern menschliche Teams das Verhalten der Modelle weiterhin aktiv. Sie entwerfen die zugrundeliegenden Prinzipien und validieren diese kontinuierlich anhand realer Alltagsszenarien. Zusätzliche Sicherheitsmechanismen fangen dabei jene Fehler ab, die das System selbst übersieht. Automatisierte Kontrollsysteme überwachen den Live-Betrieb zusätzlich auf unerwartete Abweichungen. Die Teams beheben auftretende Probleme durch diesen mehrschichtigen Ansatz schnell und effizient. Die detaillierten Berichte über die Testergebnisse stehen Interessierten ab sofort zur Verfügung.]]></description>
<author>aycaramba@all-ai.de (Andreas Becker)</author>
<category>News 2026</category>
<pubDate>Wed, 08 Apr 2026 19:33:15 +0200</pubDate>
</item>
<item>
<title>Meta beendet mit »Muse Spark« die Llama-Ära </title>
<link>https://www.all-ai.de/news/news26top/meta-muse-spark-start</link>
<guid isPermaLink="true">https://www.all-ai.de/news/news26top/meta-muse-spark-start</guid>
<description><![CDATA[<p><img title="" src="https://www.all-ai.de/images/2-news/4-26/meta-muse-1600.webp" alt="Ein Meta Llama ist am Ende"/></p> Nano Banana

                                


  
  
  

  
  
    
       
      Kurzfassung
      ▾
    

    
       
      Quellen
      ▾
    
  

  
  
    
    
      Meta beendet die Llama-Ära und führt mit Muse Spark eine völlig neue Generation von KI-Modellen ein.
Die Architektur nutzt einen Contemplating-Modus, bei dem mehrere Agenten parallel komplexe Aufgaben lösen.
In ersten Benchmarks übertrifft das System Konkurrenten wie GPT 5.4 besonders bei visuellen und medizinischen Daten.
Sicherheitstests offenbaren zudem, dass das Modell Prüfungssituationen selbstständig erkennt und sein Antwortverhalten entsprechend anpasst.
    
  

  
  
    
    
       Meta AI - Introducing Muse Spark 
    
  
                     Meta verabschiedet sich von der Llama-Serie und präsentiert mit Muse Spark eine neue Generation von KI-Modellen. Die Neuentwicklung der Meta Superintelligence Labs setzt auf parallele Agenten-Architekturen und erzielt in Leistungstests Spitzenwerte bei der komplexen Logikverarbeitung.                 
  
    
  
  
       Top News
    Meta veröffentlicht striktes Regelwerk für autonome KI-Modelle
    Ein überarbeitetes Framework bewertet die Gefahren von KI-Systemen vor der Markteinführung umfassend.
  
     
                           Das Ende von Llama Die Architektur hinter den Sprachmodellen wurde von Grund auf neu aufgebaut. Muse Spark markiert den Startpunkt einer völlig neuen Modellfamilie und löst damit Llama 4 Maverick als bisheriges Flaggschiff ab. Meta bündelt diese Entwicklungen nun in den neu geschaffenen Superintelligence Labs. Für diesen technologischen Wechsel passten die Entwickler das Pretraining sowie die Datenkuration tiefgreifend an. Ein interner Vergleich zeigt eine deutliche Effizienzsteigerung. Das neue Modell erreicht das Leistungsniveau von Llama 4 Maverick mit lediglich einem Zehntel des bisherigen Rechenaufwands.                  +           Quelle: Meta               Diese Optimierungen bilden die Basis für eine weitreichende Skalierung. Meta investiert dafür gezielt in den Ausbau der gesamten Infrastruktur. Dazu gehört unter anderem das neue Hyperion-Rechenzentrum, welches die notwendigen Kapazitäten für kommende Ausbaustufen und das intensive Reinforcement Learning bereitstellt.                   Anzeige               Was ist neu an Muse Spark? Die auffälligste technische Neuerung ist der Contemplating-Modus. Diese Architektur verlässt sich beim Test-Time-Reasoning nicht auf einen linearen Rechenweg. Stattdessen orchestriert das System mehrere KI-Agenten, die ein komplexes Problem zeitgleich analysieren und bewerten, um die Lösung im Anschluss zu optimieren.                  +           Quelle: Meta               Ein weiterer Schwerpunkt liegt auf der visuellen und medizinischen Datenverarbeitung. Das Modell ist nativ multimodal und integriert Bildinformationen fließend in die Textausgabe. Für den Gesundheitssektor kooperierte Meta im Vorfeld mit über 1.000 Medizinern, um einen hochspezialisierten Datensatz für das Training aufzubauen. Auch bei der Sicherheit implementierte der Konzern neue Standards. Das System durchlief nach dem »Advanced AI Scaling Framework« strenge Kontrollen bezüglich der Verhaltensausrichtung. Eine Besonderheit ist dabei die interne Token-Kompression: Das Modell verkürzt seine eigenen Gedankengänge bei der Lösungsfindung selbstständig, um effizienter zu arbeiten.         Benchmarks Teil 1 In den multimodalen Leistungstests sichert sich Muse Spark im Modus »Thinking« gezielt Spitzenpositionen. Beim Benchmark »CharXiv Reasoning« zur Analyse von komplexen Grafiken erreicht das System 86,4 Prozent. Es schlägt damit die Konkurrenten Opus 4.6 (65,3 Prozent) und Gemini 3.1 Pro (80,2 Prozent) deutlich. Auch bei der visuellen Lokalisierung auf Bildschirmen (ScreenSpot Pro) hält das Modell mit 84,1 Prozent problemlos mit den Top-Werten von GPT 5.4 mit. Besondere Stärke zeigt die Neuentwicklung durch das spezielle Training in der medizinischen Fachsprache. Beim »HealthBench Hard«, der offene und anspruchsvolle Gesundheitsfragen bewertet, deklassiert Muse Spark mit 42,8 Prozent das gesamte Testfeld. GPT 5.4 kommt hier auf 40,1 Prozent, während Opus 4.6 mit 14,8 Prozent weit abgeschlagen landet.                  +           Quelle: Meta               Im Bereich der Sicherheit glänzt das Modell bei der Abwehr gefährlicher Anfragen. Der »Bioweapons Refusal«-Test misst, wie zuverlässig ein System die Generierung von Informationen zu biologischen Waffen verweigert. Muse Spark erreicht hier einen Bestwert von 98,0 Prozent und positioniert sich klar vor Opus 4.6 (95,4 Prozent) sowie GPT 5.4 (74,7 Prozent).                    +           Quelle: Meta               Benchmarks Teil 2 Bei abstrakten Logikrätseln zeigen sich jedoch noch Schwachstellen der regulären Basisversion. Im Test »ARC AGI 2« erreicht Muse Spark lediglich 42,5 Prozent und unterliegt Gemini 3.1 Pro (76,5 Prozent) sowie GPT 5.4 (76,1 Prozent) drastisch. Bei Aufgaben auf akademischem Niveau (GPQA Diamond) liegt Meta mit 89,5 Prozent leicht hinter der direkten Konkurrenz. Ein völlig anderes Bild ergibt sich, sobald der rechenintensive Contemplating-Modus aktiviert wird. Beim »Humanity’s Last Exam« (ohne externe Tools) klettert Muse Spark auf 50,2 Prozent und überholt damit die spezialisierten Modi »Deep Think« von Gemini 3.1 (48,4 Prozent) und GPT 5.4 Pro (43,9 Prozent). Auch in der wissenschaftlichen Grenzforschung (FrontierScience Research) sichert sich Meta mit 38,3 Prozent den ersten Platz. Werden externe Werkzeuge zugelassen, steigt der Wert beim »Humanity’s Last Exam« auf 58,4 Prozent. Damit liegt Muse Spark nahezu gleichauf mit GPT 5.4 Pro, welches 58,7 Prozent erzielt. Eine Detailauswertung zeigt hierbei, dass der Einsatz von 16 parallel rechnenden Agenten eine spürbar höhere Genauigkeit liefert als ein einzelner Agent, der extrem lange für eine Lösung nachdenkt.                  +           Quelle: Meta               So geht es weiter bei Meta Ein bemerkenswertes Detail lieferte eine externe Überprüfung durch Apollo Research. Die Prüfer stellten fest, dass Muse Spark eine extrem hohe »Evaluation Awareness« besitzt. Das Modell erkennt in Testsituationen zuverlässig, dass es kontrolliert wird. Es stuft Szenarien eigenständig als Prüfungsfallen ein und wählt gezielt die ehrlichen Antworten, um den Test zu bestehen. Meta ordnet dieses Verhalten derzeit nicht als blockierendes Risiko für eine Veröffentlichung ein, kündigte aber weitere Forschungen an. Ziel des Konzerns ist es, die Modelle auf dem Weg zu einer persönlichen Superintelligenz vorhersehbar und sicher zu skalieren, ohne die Autonomie der Systeme unkontrolliert wachsen zu lassen. Muse Spark bildet dafür nun das fundamentale Basismodell für künftige Entwicklungen. Die regulären Funktionen stehen Nutzern über die Weboberfläche und die Meta AI App ab sofort zur Verfügung. Der Contemplating-Modus wird in den kommenden Wochen schrittweise ausgerollt, während Entwickler Zugang zu einer geschlossenen API-Vorschau erhalten.                   Anzeige]]></description>
<author>aycaramba@all-ai.de (Andreas Becker)</author>
<category>Top News 2026</category>
<pubDate>Wed, 08 Apr 2026 19:12:20 +0200</pubDate>
</item>
<item>
<title>Kampf gegen KI-Missbrauch durch neue OpenAI-Richtlinien</title>
<link>https://www.all-ai.de/news/news26/openai-sicherheit</link>
<guid isPermaLink="true">https://www.all-ai.de/news/news26/openai-sicherheit</guid>
<description><![CDATA[<p><img title="" src="https://www.all-ai.de/images/2-news/4-26/openai-sicherheit-1600.webp" alt="Ein OpenAI Logo aus Knete"/></p> Nano Banana

                                


  
  
  

  
  
    
       
      Kurzfassung
      ▾
    

    
       
      Quellen
      ▾
    
  

  
  
    
    
      OpenAI hat den Child Safety Blueprint vorgestellt, ein Rahmenwerk zum Schutz von Kindern vor KI-generiertem Missbrauchsmaterial.
Das Konzept fordert eine Modernisierung der Gesetze, um technologische Grauzonen für Täter zu schließen.
KI-Modelle sollen gefährliche Prompts künftig direkt erkennen, blockieren und strukturierte Daten an Ermittler melden.
Organisationen wie das National Center for Missing & Exploited Children waren an der Entwicklung beteiligt.
    
  

  
  
    
    
       OpenAI - Introducing the Child Safety Blueprint 

 OpenAI - Child Protection Blueprint (PDF) 
    
  
                     OpenAI veröffentlicht ein neues Rahmenwerk zum Schutz von Kindern im Zeitalter generativer künstlicher Intelligenz. Der Child Safety Blueprint formuliert rechtliche sowie technische Standards, um synthetisches Missbrauchsmaterial konsequent an der Quelle zu stoppen.                       Gesetzesanpassungen und rechtliche Rahmenbedingungen Der Leitfaden verlangt zunächst eine Anpassung bestehender Gesetze auf staatlicher Ebene. Strafverfolgungsbehörden benötigen unmissverständliche Definitionen, um KI-generiertes und digital verändertes Missbrauchsmaterial juristisch zweifelsfrei erfassen zu können. Aktuell verfügen 45 US-Bundesstaaten über solche spezifischen Regelungen. Täter dürfen technologische oder gesetzliche Grauzonen bei der Nutzung neuer KI-Modelle unter keinen Umständen ausnutzen. Um die Entwicklung sicherer Systeme zu fördern, empfiehlt OpenAI zudem einen rechtlichen Schutzraum. Technologieunternehmen benötigen konkrete Sicherheiten für gutgläubige Forschung. Nur so können sie komplexe Missbrauchsmuster aufdecken und analysieren, ohne dabei unbeabsichtigte Haftungsrisiken einzugehen.                     Anzeige               Optimierte Meldeprozesse für Ermittler Der zweite Schwerpunkt widmet sich der Optimierung von Meldeprozessen. Ermittler verbringen in der Praxis oft zu viel Zeit mit unvollständigen Berichten. Das verzögert die Identifikation von Opfern erheblich. Künftig sollen strukturierte Daten und klare Priorisierungsindikatoren die Bearbeitung zeitkritischer Fälle spürbar beschleunigen. KI-Modelle filtern und bündeln dafür erste Hinweise auf Ausbeutung. Das reduziert den administrativen Aufwand aufseiten der Ermittlungsbehörden.         Technische Filter und menschliche Prüfer Der dritte Bereich greift direkt in die technische Architektur der KI-Modelle ein. Vorbeugende Sicherheitsvorkehrungen müssen nach dem Safety-by-Design-Prinzip von Beginn an integriert sein. Die Software muss gefährliche Prompts und hartnäckige Versuche, Sicherheitsfilter iterativ zu umgehen, automatisch erkennen. In diesen Fällen verweigern die Modelle den Generierungsprozess sofort. »Die Bedrohung entwickelt sich ständig weiter, und statische Lösungen reichen nicht aus«. Aus diesem Grund setzen die Richtlinien in besonders riskanten Szenarien weiterhin auf menschliche Prüfer. Sie bewerten eskalierte Vorfälle präzise und reduzieren falsche Treffer. Die Maßnahmen sollen branchenweit sicherstellen, dass technologische Innovationen bestehende Schutzmechanismen stärken.]]></description>
<author>aycaramba@all-ai.de (Andreas Becker)</author>
<category>News 2026</category>
<pubDate>Wed, 08 Apr 2026 15:06:37 +0200</pubDate>
</item>
<item>
<title>Neuer FLUX.2 Small Decoder senkt VRAM-Bedarf drastisch</title>
<link>https://www.all-ai.de/news/news26/flux-small-decoder</link>
<guid isPermaLink="true">https://www.all-ai.de/news/news26/flux-small-decoder</guid>
<description><![CDATA[<p><img title="" src="https://www.all-ai.de/images/2-news/4-26/flux-decoder-small-1600.webp" alt="zwei Katzen mit hello world"/></p> Nano Banana

                                


  
  
  

  
  
    
       
      Kurzfassung
      ▾
    

    
       
      Quellen
      ▾
    
  

  
  
    
    
      Black Forest Labs veröffentlicht den neuen FLUX.2 Small Decoder für seine offenen KI-Modelle.
Die Architektur reduziert die VRAM-Auslastung und beschleunigt die Bildberechnung jeweils um den Faktor 1,4.
Dank reduzierter Parameterzahl generieren Anwender höhere Auflösungen ohne schnelle Speicher-Engpässe auf der Grafikkarte.
Das kleine Modell ersetzt den bisherigen Decoder direkt und steht unter der Apache 2.0 Lizenz bereit.
    
  

  
  
    
    
       Hugging Face: black-forest-labs/FLUX.2-small-decoder 

 X: Black Forest Labs (@bfl_ml) 
    
  
                     Black Forest Labs veröffentlicht einen neuen Decoder für die eigenen Bildgenerierungs-Modelle der FLUX.2-Serie. Die angepasste Variante senkt den VRAM-Bedarf der Grafikkarten und erhöht die Geschwindigkeit beim Berechnen der Bilder jeweils um den Faktor 1,4.                     Effiziente Bildberechnung durch schmaleres Netz Das neue KI-Modell bringt nur noch rund 28 Millionen statt der bisher üblichen 50 Millionen Parameter auf die Waage. Diese Verkleinerung erreichen die Entwickler durch schmalere Kanalbreiten im neuronalen Netz. Konkret sinken die Werte von ursprünglich [128, 256, 512, 512] auf nun [96, 192, 384, 384]. Trotz des geschrumpften Umfangs bleibt die visuelle Qualität der Grafiken nahezu unangetastet. Anwender tauschen den bisherigen Decoder einfach gegen die neue Version aus. Der zugehörige Encoder bleibt bei diesem Prozess völlig unberührt. Das neue Bauteil harmoniert nahtlos mit allen aktuellen Open-Weights-Varianten der FLUX.2-Familie, darunter FLUX.2-klein-4B und FLUX.2-dev.                  +           Quelle: Black Forest Labs               Mehr Spielraum für hohe Auflösungen Der reduzierte Bedarf an Videospeicher löst ein bekanntes Problem bei der lokalen Bildgenerierung. Grafikkarten stoßen bei der Erstellung von sehr hochauflösenden Motiven oft an harte Hardware-Grenzen. Ein sparsamerer VRAM-Verbrauch verschiebt dieses Limit spürbar nach oben. Privatanwender bewältigen dadurch detailreichere Aufträge ohne Programmabstürze wegen Speichermangel. Ein messbarer Tempogewinn hilft Entwicklern zudem besonders bei zeitkritischen Abläufen. Die Modelle liefern ihre Bilder mit dem neuen Decoder sichtbar schneller aus und ermöglichen flüssige Benutzererfahrungen in Echtzeit. Black Forest Labs stellt die Code-Basis unter der freien Apache 2.0 Lizenz zur Verfügung. Nutzer laden das KI-Modell ab sofort über Plattformen wie Hugging Face herunter.                     Anzeige]]></description>
<author>aycaramba@all-ai.de (Andreas Becker)</author>
<category>News 2026</category>
<pubDate>Wed, 08 Apr 2026 13:03:44 +0200</pubDate>
</item>
<item>
<title>KI-Modell GLM-5.1 schlägt Konkurrenz im SWE-Bench Pro</title>
<link>https://www.all-ai.de/news/news26top/glm-5-1-release</link>
<guid isPermaLink="true">https://www.all-ai.de/news/news26top/glm-5-1-release</guid>
<description><![CDATA[<p><img title="" src="https://www.all-ai.de/images/2-news/4-26/glm5.1-1600.webp" alt="Ein Pferd programmiert"/></p> Nano Banana

                                


  
  
  

  
  
    
       
      Kurzfassung
      ▾
    

    
       
      Quellen
      ▾
    
  

  
  
    
    
      Das neue KI-Modell GLM-5.1 fokussiert sich auf komplexe, langfristige Programmieraufgaben durch autonome KI-Agenten.
Im SWE-Bench Pro und CyberGym belegt die Architektur den ersten Platz, verliert bei Terminal-Aufgaben jedoch gegen GPT-5.4.
Die Gewichte des Modells stehen als Open Source unter der MIT-Lizenz auf Plattformen wie HuggingFace bereit.
    
  

  
  
    
    
       Z.ai - GLM5.1 erschienen 
    
  
                     Das neue KI-Modell GLM-5.1 fokussiert sich auf autonome Softwareentwicklung durch KI-Agenten. Die Architektur löst komplexe Programmieraufgaben über lange Zeiträume und liefert in aktuellen Benchmarks starke, aber gemischte Ergebnisse.                       Ausdauer für lange Code-Projekte Bisherige KI-Modelle schöpfen ihr Potenzial bei schwierigen Aufgaben oft schnell aus. GLM-5.1 wählt hierbei einen anderen Ansatz. Das Modell meistert sogenannte »Long-Horizon Tasks« und arbeitet über Hunderte von Schritten produktiv. Es analysiert die eigenen Ergebnisse in Echtzeit und passt die Lösungsstrategie eigenständig an. Diese Ausdauer zeigt sich in harten Benchmarks. Bei der Optimierung einer Vektordatenbank erreichte das KI-Modell nach 600 Durchläufen 21.500 QPS. Das entspricht ungefähr der sechsfachen Leistung bisheriger Bestwerte. Die Architektur identifiziert Flaschenhälse im Code völlig autark und strukturiert den Aufbau neu. Ein weiterer Test demonstriert die Fähigkeiten bei unstrukturierten Aufgaben. Das KI-Modell baute innerhalb von acht Stunden eine komplette Linux-Desktop-Umgebung als Webanwendung auf. Dabei integrierte die KI komplexe Elemente wie einen Dateibrowser und ein Terminal fließend in die Benutzeroberfläche.                   Anzeige               Differenziertes Bild in den Benchmarks GLM-5.1 übertrifft bei der reinen Code-Generierung und in Sicherheitstests viele etablierte Konkurrenten. Im SWE-Bench Pro erreicht das KI-Modell einen Wert von 58,4 und verweist GPT-5.4 knapp auf den zweiten Platz. Bei der Reproduktion von Sicherheitslücken im CyberGym-Benchmark erzielt das Modell beachtliche 68,7 Punkte und schlägt damit Opus 4.6.                  +                    +           Quelle: Zhipu AI                Andere Auswertungen zeigen jedoch deutliche Leistungsgrenzen. Im Terminal-Bench 2.0 verbessert sich GLM-5.1 zwar im Vergleich zum Vorgänger auf 66,5 Punkte, bleibt damit aber hinter GPT-5.4 mit 75,1 Punkten und Gemini 3.1 Pro zurück.                    +           Quelle: Zhipu AI                Ein ähnliches Bild zeichnet der NL2Repo-Benchmark für die Generierung ganzer Repositories. Das KI-Modell kommt hier auf 42,7 Punkte und muss sich Opus 4.6 geschlagen geben, das mit 49,8 Punkten die Rangliste deutlich anführt.                    +           Quelle: Zhipu AI                Offener Zugang für Entwickler Softwareentwickler binden das KI-Modell direkt in ihre bestehenden Arbeitsabläufe ein. GLM-5.1 ist nativ mit gängigen Assistenten wie Claude Code oder Roo Code kompatibel. Die Gewichte des Modells stehen als Open Source unter der flexiblen MIT-Lizenz bereit. Plattformen wie HuggingFace bieten die Dateien kostenlos für den Download an. Für die lokale Ausführung unterstützen performante Frameworks wie vLLM und SGLang die Architektur direkt. Wer keine eigene Infrastruktur aufbauen möchte, greift auf offizielle Programmierschnittstellen zurück. Das neue KI-Modell steht über die Plattformen des Anbieters zur Verfügung.]]></description>
<author>aycaramba@all-ai.de (Andreas Becker)</author>
<category>Top News 2026</category>
<pubDate>Wed, 08 Apr 2026 10:38:23 +0200</pubDate>
</item>
<item>
<title>Subagents machen Claude Code schneller und effizienter</title>
<link>https://www.all-ai.de/news/news26/claude-code-subagents-schneller</link>
<guid isPermaLink="true">https://www.all-ai.de/news/news26/claude-code-subagents-schneller</guid>
<description><![CDATA[<p><img title="" src="https://www.all-ai.de/images/2-news/4-26/anthropic-subagents-1600.webp" alt="Eine Anthropic Infografik mit Agenten"/></p> Nano Banana

                                


  
  
  

  
  
    
       
      Kurzfassung
      ▾
    

    
       
      Quellen
      ▾
    
  

  
  
    
    
      Anthropic zeigt, wie Entwickler sogenannte Subagents in Claude Code effizient steuern.
Diese isolierten KI-Modelle bearbeiten Aufgaben parallel und entlasten das Kontextfenster der Hauptunterhaltung.
Nutzer starten die Helfer über einfache Prompts oder automatisieren sie für regelmäßige Code-Prüfungen.
Bei kleinen oder abhängigen Arbeitsschritten lohnt sich der Einsatz aufgrund des Token-Verbrauchs jedoch nicht.
    
  

  
  
    
    
       Anthropic: How and when to use subagents in Claude Code 
    
  
                     Anthropic liefert konkrete Strategien für die gezielte Steuerung von Subagents in Claude Code. Diese isolierten KI-Modelle arbeiten parallel an Aufgaben, schonen das Kontextfenster und reduzieren den Token-Verbrauch bei großen Projekten spürbar.                       Frischer Kontext für komplexe Projekte Ausgiebige Programmier-Sitzungen füllen das Gedächtnis von KI-Assistenten schnell auf. Jede gelesene Code-Datei und jeder verworfene Ansatz verstopfen das Kontextfenster enorm. Das macht die Antworten langsam und treibt die Kosten in die Höhe. Subagents lagern diese Last clever aus. Ein solches Modell agiert als völlig eigenständige Instanz ohne historische Altlasten. Es übernimmt eine spezifische Aufgabe, sammelt Informationen im Hintergrund und liefert ausschließlich das gefilterte Resultat an die Hauptkonversation zurück. Der Haupt-Thread bleibt dadurch sauber und reaktionsschnell.                   Anzeige               Paralleles Arbeiten und neutrale Analysen Diese Aufgabenteilung beschleunigt voneinander unabhängige Arbeitsschritte drastisch. Müssen Entwickler beispielsweise ein Design-Pattern in mehreren Dateien aktualisieren, erledigen drei gleichzeitig gestartete Subagents dies in einem Bruchteil der Zeit. Ein weiterer brillanter Einsatzzweck sind objektive Code-Reviews. Da ein neu gestarteter Assistent den bisherigen Chat-Verlauf nicht kennt, prüft er den Code absolut unvoreingenommen. Entwickler erhalten so eine neutrale Einschätzung zu potenziellen Sicherheitslücken oder Fehlern in der Architektur. Vorherige Annahmen aus dem Haupt-Prompt verfälschen das Ergebnis nicht. Von simplen Prompts bis zur Automation Die Steuerung der Assistenten funktioniert in der Praxis sehr flexibel. Ein präziser Prompt wie »Untersuche diese Codebasis parallel« reicht völlig aus, um das Hauptmodell zur Erstellung mehrerer Helfer zu bewegen. Für wiederkehrende Prozesse definieren Teams feste Spezialisten. Folgende Methoden etablieren solche Workflows:  Benutzerdefinierte Markdown-Dateien für spezifische Experten-Rollen. Die zentrale Datei CLAUDE.md für feste projektweite Richtlinien. Automatisierte Hooks für strenge Qualitätskontrollen direkt vor Commits.  Einmal eingerichtet, delegiert das System bestimmte Aufgabenkomplexe fortan selbstständig an den passenden virtuellen Experten.         Wann ein einzelnes Modell ausreicht Trotz aller Vorteile lohnt sich die Aufspaltung der Rechenlast nicht bei jedem Handgriff. Jeder Subagent kostet beim Start eigene Token und erzeugt unvermeidbare Latenzzeiten. Bei winzigen Fehlerbehebungen überwiegt dieser Aufwand den tatsächlichen Nutzen. Auch bei streng sequenziellen Arbeitsschritten stößt das Konzept schnell an Grenzen. Baut ein Code-Baustein zwingend auf den exakten Resultaten des vorherigen auf, arbeitet eine einzige zusammenhängende Sitzung effizienter. Das gleichzeitige Bearbeiten ein und derselben Datei führt zudem unweigerlich zu Konflikten. Die Subagent-Steuerung ist in Claude Code bereits voll integriert.]]></description>
<author>aycaramba@all-ai.de (Andreas Becker)</author>
<category>News 2026</category>
<pubDate>Wed, 08 Apr 2026 10:15:46 +0200</pubDate>
</item>
<item>
<title>Neuer KI-Bildgenerator überholt Seedance 2.0 im Benchmark</title>
<link>https://www.all-ai.de/news/news26top/happyhorse-ki-bildgenerator-leak</link>
<guid isPermaLink="true">https://www.all-ai.de/news/news26top/happyhorse-ki-bildgenerator-leak</guid>
<description><![CDATA[<p><img title="" src="https://www.all-ai.de/images/2-news/4-26/happyhorse-1600a.webp" alt="Ein Pferd als Filmemacher"/></p> Nano Banana

                                


  
  
  

  
  
    
       
      Kurzfassung
      ▾
    

    
       
      Quellen
      ▾
    
  

  
  
    
    
      Ein neues, anonymes KI-Videomodell namens HappyHorse-1.0 belegt in den Leaderboards von Artificial Analysis überraschend den ersten Platz bei stummen Videos.
Bei der Generierung von Inhalten mit Audio ordnet sich das Modell jedoch knapp hinter dem bisherigen Spitzenreiter Dreamina Seedance 2.0 ein.
Trotz der starken numerischen Testergebnisse bewerten viele Nutzer die tatsächliche Bildqualität subjektiv schwächer als die der Konkurrenz.
In der Community wird spekuliert, dass es sich bei dem System entweder um einen Testlauf für Googles Veo 4 oder ein neues Modell aus China handeln könnte.
    
  

  
  
    
    
       Artificial Analysis auf X - Example generations from HappyHorse-1.0 compared to Dreamina Seedance 2.0 
    
  
                     Ein unangekündigtes KI-Modell namens HappyHorse-1.0 stürmt überraschend an die Spitze der Videogenerierung. In aktuellen Benchmarks übertrifft das System etablierte Branchenführer, wirft bei genauerer Betrachtung aber direkt Fragen zur tatsächlichen visuellen Qualität der Ergebnisse auf.                       Starke Zahlen bei stummen Videos Auf der Plattform Artificial Analysis zeigt HappyHorse-1.0 eine bemerkenswerte Leistung bei der Erstellung stummer Clips. Im Bereich Text-to-Video (ohne Audio) erreicht das Modell einen ELO-Wert von 1332 und verdrängt damit Dreamina Seedance 2.0 auf den zweiten Platz.  Die Führung manifestiert sich ebenso deutlich bei der Konvertierung von Bildern. Hier erzielt das System in der Kategorie Image-to-Video ohne Audio einen Spitzenwert von 1391 Punkten.                  +                                +           Quelle: artificialanalysis               Schwächere Leistung mit Ton und visuelle Zweifel Sobald Audio-Features ins Spiel kommen, wandelt sich das Bild auf dem Leaderboard. In den Kategorien mit Ton ordnet sich HappyHorse-1.0 knapp hinter der Konkurrenz ein. Bei Text-to-Video mit Audio erzielt das Modell 1204 Punkte und muss sich damit Seedance 2.0 geschlagen geben. Das gleiche Muster zeigt sich bei der animierten Bildgenerierung mit Ton.                  +                                +           Quelle: artificialanalysis               Neben den reinen Benchmarks diskutiert die Community intensiv die reale optische Qualität der generierten Videos. Die nackten Zahlen des Benchmarks decken sich bei der Betrachtung der Testläufe nicht zwingend mit der menschlichen Wahrnehmung. Bei komplexen Prompts wie »A cat staring at its own reflection« entsteht bei Testern der Eindruck, dass sich das KI-Modell visuell hinter der aktuellen Konkurrenz einreiht.               
    
        Twitter Beitrag - Cookies links unten aktivieren.
    
 Prompt [3/4]: A cat staring at its own reflection in a toaster, paw tapping the chrome surface. The distorted cat reflection taps back. Audio: Paw taps, confused meow. pic.twitter.com/oOeSTGEYme &mdash; Artificial Analysis (@ArtificialAnlys) April 7, 2026                  
    
        Twitter Beitrag - Cookies links unten aktivieren.
    
 Example generations from HappyHorse-1.0 compared to Dreamina Seedance 2.0, Kling 3.0 Pro, grok-video-imagine and PixVerse V6 (Text to Video with Audio): Prompt [1/4]: A hula hoop spinning on a kid&#39;s waist, gradually climbing to their chest, then dropping to knees, then… pic.twitter.com/GjtiY0COYl &mdash; Artificial Analysis (@ArtificialAnlys) April 7, 2026                  Spekulationen um die Herkunft Der Entwickler hinter HappyHorse-1.0 bleibt vorerst anonym. Beobachter vermuten hinter dem kuriosen Pseudonym einen großen Tech-Konzern, der sein System unerkannt in der Praxis testet. Die Spekulationen konzentrieren sich derzeit auf zwei primäre Lager. Einerseits vermuten Nutzer ein neues Modell des Unternehmens Bytedance oder Hailuo AI. Andererseits fällt häufig der Name von Googles kommendem System Veo 4, dessen offizielle Vorstellung ohnehin für den späten April erwartet wird. Eine finale Bestätigung durch einen Hersteller gibt es bislang nicht.                   Anzeige]]></description>
<author>aycaramba@all-ai.de (Andreas Becker)</author>
<category>Top News 2026</category>
<pubDate>Wed, 08 Apr 2026 09:50:22 +0200</pubDate>
</item>
<item>
<title>Projekt Glasswing: Tech-Giganten verbünden sich</title>
<link>https://www.all-ai.de/news/news26/projekt-glasswing-start</link>
<guid isPermaLink="true">https://www.all-ai.de/news/news26/projekt-glasswing-start</guid>
<description><![CDATA[<p><img title="" src="https://www.all-ai.de/images/2-news/4-26/project-glasswing-1600.webp" alt="Anthropic glasswing grafik"/></p> Nano Banana

                                


  
  
  

  
  
    
       
      Kurzfassung
      ▾
    

    
       
      Quellen
      ▾
    
  

  
  
    
    
      Ein neues Bündnis namens Projekt Glasswing vereint große Tech-Unternehmen zur Stärkung der Cybersicherheit.
Im Mittelpunkt steht das KI-Modell Mythos Preview, das autonom Schwachstellen in kritischer Software findet.
Das Modell identifizierte bereits jahrzehntealte Fehler in Systemen wie OpenBSD und FFmpeg.
Für die defensive Nutzung stellen die Initiatoren 100 Millionen US-Dollar in Form von Credits bereit.
    
  

  
  
    
    
       Anthropic: Project Glasswing 
    
  
                     Führende Technologiekonzerne starten das Projekt Glasswing, um kritische Software-Infrastruktur durch künstliche Intelligenz abzusichern. Im Zentrum steht das unveröffentlichte Modell Mythos Preview, das komplexe Sicherheitslücken selbstständig aufspürt und meldet.                 
  
  
                           Allianz für defensive Cybersicherheit Unternehmen wie AWS, Apple, Google und Microsoft greifen im Rahmen der Initiative gemeinsam auf neue KI-Fähigkeiten zurück. Das primäre Ziel liegt darin, das Modell für die Abwehr von Cyberangriffen einzusetzen. Die beteiligten Akteure scannen damit eigene sowie weitverbreitete quelloffene Systeme. Insgesamt erhalten über 40 Organisationen frühzeitigen Zugang zu diesen Funktionen. Für die Nutzung stehen den Partnern Credits im Wert von 100 Millionen US-Dollar bereit. Zusätzlich fließen vier Millionen US-Dollar direkt an Open-Source-Sicherheitsorganisationen, um unabhängige Entwickler bei der Netzwerksicherheit zu unterstützen.                   Anzeige               Autonome Identifikation von Schwachstellen Die Initiative stützt sich auf das Modell Mythos Preview. Es übertrifft laut aktuellen Benchmarks bisherige Ansätze deutlich. Beim CyberGym-Test zur Reproduktion von Schwachstellen erreicht das Modell 83,1 Prozent. Die Vorgängerversion Opus 4.6 liegt im direkten Vergleich bei lediglich 66,6 Prozent. In der Praxis fand das System Tausende bisher unbekannte Zero-Day-Lücken in gängigen Betriebssystemen und Webbrowsern. Darunter befand sich eine 27 Jahre alte Schwachstelle in OpenBSD. Das Betriebssystem nutzen viele Experten für den Betrieb von Firewalls, da es eigentlich als stark abgesichert gilt. Auch eine 16 Jahre alte Lücke in der Videosoftware FFmpeg deckte das KI-Modell eigenständig auf. Bisherige automatisierte Sicherheitstests übersahen diesen speziellen Fehler zuvor bei über fünf Millionen Durchläufen.               
  
    
  
  
       Top News
    Claude Mythos schlägt Opus 4.6 um Welten
    Die Testergebnisse aus den Cybersicherheits-Benchmarks zwingen die Entwickler zu einem ungewöhnlichen Schritt.
  
     
               Geschlossener Zugang für mehr Kontrolle Das Modell bleibt für die breite Öffentlichkeit vorerst komplett unzugänglich. Die Initiatoren planen zum jetzigen Zeitpunkt keine allgemeine Veröffentlichung. Der Fokus liegt klar auf der defensiven Nutzung durch verifizierte Partner und Maintainer. Nach der aktuellen Vorschauphase kostet die reguläre Nutzung 25 US-Dollar pro Million Input-Token. Für die Ausgabe-Token berechnen die Anbieter 125 US-Dollar. Die technische Bereitstellung für autorisierte Nutzer erfolgt in Zukunft unter anderem über Amazon Bedrock und Google Vertex AI.]]></description>
<author>aycaramba@all-ai.de (Andreas Becker)</author>
<category>News 2026</category>
<pubDate>Tue, 07 Apr 2026 22:38:19 +0200</pubDate>
</item>
<item>
<title>Claude Mythos schlägt Opus 4.6 um Welten</title>
<link>https://www.all-ai.de/news/news26top/claude-mythos-opus-start</link>
<guid isPermaLink="true">https://www.all-ai.de/news/news26top/claude-mythos-opus-start</guid>
<description><![CDATA[<p><img title="" src="https://www.all-ai.de/images/2-news/4-26/anthropic-mythos-preview-1600.webp" alt="Ein Anthropic Zeus"/></p> Nano Banana

                                


  
  
  

  
  
    
       
      Kurzfassung
      ▾
    

    
       
      Quellen
      ▾
    
  

  
  
    
    
      Anthropic hat das neue KI-Modell Claude Mythos Preview vorgestellt, das komplexe Sicherheitslücken in Software völlig autonom findet und ausnutzt.
Bei internen Tests generierte das System 181 funktionierende Browser-Exploits und fand jahrzehntealte Schwachstellen in OpenBSD sowie FreeBSD.
Aufgrund der Gefahr durch automatisierte Schadcode-Generierung verzichtet Anthropic auf eine öffentliche Freigabe.
Über das Project Glasswing erhalten lediglich ausgewählte Partner Zugriff, um kritische Infrastrukturen präventiv zu schützen.
    
  

  
  
    
    
       Anthropic System Card - Claude Mythos Preview 

 Anthropic Blog - Assessing Claude Mythos Preview’s cybersecurity capabilities 
    
  
                     Das neue KI-Modell Claude Mythos Preview findet und attackiert eigenständig kritische Sicherheitslücken in etablierten Betriebssystemen. Die unerwartet hohen Fähigkeiten im Bereich der Cybersicherheit veranlassen Anthropic dazu, auf eine Veröffentlichung für die Allgemeinheit vorerst  zu verzichten.                       Agentic Coding Benchmarks Das neue KI-Modell zeigt bei der automatisierten Softwareentwicklung einen deutlichen Leistungssprung. Im branchenüblichen Test SWE-bench Verified löst Claude Mythos Preview 93,9 Prozent der komplexen Programmieraufgaben völlig autonom. Das direkte Vorgängermodell Opus 4.6 erreichte hier im Vergleich eine Erfolgsquote von 80,8 Prozent. Bei der noch anspruchsvolleren Pro-Variante dieses Tests baut das Modell den Abstand mit 77,8 Prozent gegenüber 53,4 Prozent weiter aus. Auch bei mehrsprachigen und multimodalen Coding-Aufgaben dominieren die neuen Werte. Im SWE-bench Multilingual erzielt das System einen Wert von 87,3 Prozent, während Opus 4.6 bei 77,8 Prozent stagnierte.                  +           Quelle: Anthropic               Reasoning Benchmarks Die analytischen Fähigkeiten und das logische Schlussfolgern auf Expertenniveau verbessern sich signifikant. Beim akademischen Benchmark GPQA Diamond erreicht Claude Mythos Preview einen Wert von 94,6 Prozent. Das Opus-Modell schnitt hier zuvor mit 91,3 Prozent bereits sehr hoch ab, wurde nun aber erneut übertroffen. Das System verknüpft komplexe Fakten merklich präziser. Bei extrem anspruchsvollen Wissenstests wie Humanity's Last Exam zeigt sich die wahre Leistungsfähigkeit. Ohne den Einsatz externer Hilfsmittel erzielt das neue Modell 56,8 Prozent, verglichen mit lediglich 40,0 Prozent bei Opus 4.6. Nutzt das System zusätzliche Werkzeuge, steigt die Erfolgsquote auf 64,7 Prozent, wohingegen der Vorgänger 53,1 Prozent erreichte.                  +           Quelle: Anthropic               Agentic Search und Computer Use Benchmarks Das System navigiert virtuell durch Benutzeroberflächen und bedient Programme fast wie ein menschlicher Anwender. Im OSWorld-Verified-Benchmark erreicht Mythos Preview eine Erfolgsrate von 79,6 Prozent. Auch auf der reinen Kommandozeile agiert das Modell sicherer. Terminal-Bench 2.0 bescheinigt dem System glatte 82,0 Prozent, während Opus 4.6 diese Aufgaben nur in 65,4 Prozent der Fälle erfolgreich bewältigte. Bei der autonomen Websuche und der Extraktion von Informationen aus dem Internet setzt sich dieser Trend fort. Der BrowseComp-Benchmark listet das neue Modell mit starken 86,9 Prozent. Das System liest Webseiten nicht nur passiv aus, sondern interagiert aktiv mit den Inhalten und bewertet die Relevanz der gefundenen Daten für den Auftrag. Insgesamt kann man sagen, dass das bisher beste Modell, Opus 4.6, noch einmal deutlich übertroffen wird.                  +           Quelle: Anthropic               Cybersicherheit auf anderem Niveau Das KI-Modell zeigt bei internen Tests außergewöhnliche Ergebnisse in der Cybersicherheit. In einer Testumgebung mit dem Webbrowser Firefox 147 entwickelte das Vorgängermodell Opus 4.6 bei hunderten Versuchen lediglich zwei funktionierende Exploits. Claude Mythos Preview generierte im gleichen Szenario 181 voll funktionsfähige Angriffe. Bei 29 weiteren Versuchen erlangte das System zumindest die Kontrolle über die Register. Auch beim Test mit dem OSS-Fuzz-Korpus liefern die Daten deutliche Unterschiede. Das Modell testete rund 7000 Einstiegspunkte von Open-Source-Projekten. Opus 4.6 erreichte auf der fünfstufigen Gefahrenskala fast ausschließlich einfache Abstürze der Stufen 1 und 2. Mythos Preview produzierte hingegen 595 Abstürze dieser Kategorien und übernahm bei zehn vollständig gepatchten Zielsystemen den kompletten Kontrollfluss der höchsten Stufe 5.                  +           Quelle: Anthropic               Verborgene Schwachstellen in der Praxis Claude Mythos Preview analysierte den Code realer Betriebssysteme und entdeckte bisher unbekannte Zero-Day-Schwachstellen. In OpenBSD fand das Modell einen 27 Jahre alten Fehler im TCP-Protokoll. Ein potenzieller Angreifer könnte diese Lücke nutzen, um verbundene Server gezielt zum Absturz zu bringen. Bei FreeBSD identifizierte und nutzte das Modell eine 17 Jahre alte Schwachstelle. Völlig autonom schrieb das KI-Modell einen Exploit, der über das Netzwerk direkten Root-Zugriff auf den Server ermöglicht. Das System umging dabei etablierte Schutzmechanismen und stückelte den Angriff präzise in mehrere Netzwerkpakete auf, um Speicherbegrenzungen zu umgehen. In der weit verbreiteten Medienbibliothek FFmpeg spürte das System einen 16 Jahre alten Programmierfehler im H.264-Codec auf. Menschliche Prüfer und automatisierte Fuzzing-Systeme hatten dieses Problem zuvor jahrelang übersehen.                   Anzeige               Logikfehler und Reverse Engineering Neben klassischen Speicherfehlern erkennt das KI-Modell zunehmend komplexe Logikfehler. Es analysiert die eigentliche Absicht des Codes und vergleicht diese mit der tatsächlichen Ausführung. So deckte Mythos Preview unter anderem vollständige Authentifizierungs-Bypasses in Webanwendungen auf, die unautorisierten Nutzern sofort Administratorrechte gewähren. Das Modell beherrscht zudem Reverse Engineering auf hohem Niveau. Es analysiert geschlossenen, kompilierten Code und rekonstruiert daraus plausiblen Quelltext. Mit dieser Methode fand das System kritische Schwachstellen in proprietären Browsern und Smartphone-Firmwares. Eingeschränkter Zugang für die Verteidigung Diese Ergebnisse verändern die aktuelle Risikobewertung für IT-Sicherheit. Anthropic stuft die Gefahr als zu hoch ein, um das Modell frei zugänglich zu machen. Die automatische Generierung von Schadcode funktioniert derart zuverlässig, dass ungeschulte Nutzer schnell komplexe Angriffe erstellen könnten. Als Reaktion startet der Entwickler das »Project Glasswing«. Ausgewählte Partner und Open-Source-Entwickler erhalten exklusiven Zugriff auf Claude Mythos Preview. Sie nutzen das KI-Modell, um kritische Infrastrukturen abzusichern und Fehler proaktiv zu beheben. Die Branche steht nun vor der Aufgabe, Patch-Zyklen zu verkürzen und automatisierte Abwehrmaßnahmen in den Arbeitsalltag zu integrieren.               
  
    
  
  
       Top News
    Projekt Glasswing: Tech-Giganten verbünden sich
    Eine neue Allianz nutzt KI-Modelle, um kritische Infrastruktur abzusichern und Zero-Day-Lücken aufzuspüren.]]></description>
<author>aycaramba@all-ai.de (Andreas Becker)</author>
<category>Top News 2026</category>
<pubDate>Tue, 07 Apr 2026 22:31:22 +0200</pubDate>
</item>
<item>
<title>Warum Anthropic sein stärkstes KI-Modell nicht veröffentlicht</title>
<link>https://www.all-ai.de/news/news26top/anthropic-mythos-start</link>
<guid isPermaLink="true">https://www.all-ai.de/news/news26top/anthropic-mythos-start</guid>
<description><![CDATA[<p><img title="" src="https://www.all-ai.de/images/2-news/4-26/anthropic-mythos-start-1600.webp" alt="Ein Anthropic Logo mit Mythos KI"/></p> Nano Banana

                                


  
  
  

  
  
    
       
      Kurzfassung
      ▾
    

    
       
      Quellen
      ▾
    
  

  
  
    
    
      Anthropic hat die Preview seines neuen KI-Modells Mythos gestartet, verzichtet aber auf eine öffentliche Freigabe.
Das System wird exklusiv in der Initiative Project Glasswing von 40 Partnern für defensive Cybersicherheit genutzt.
Obwohl es nicht speziell dafür trainiert wurde, fand Mythos bereits tausende, teilweise jahrzehntealte Zero-Day-Schwachstellen.
Mythos positioniert sich als leistungsstarkes Frontier-Modell mit ausgeprägten Reasoning- und Coding-Fähigkeiten über der bisherigen Opus-Klasse.
    
  

  
  
    
    
       TechCrunch - Anthropic debuts preview of powerful new AI model Mythos in new cybersecurity initiative 

 The New York Times - Anthropic Claims Its New A.I. Model, Mythos, Is a Cybersecurity ‘Reckoning’ 

 CNN - Anthropic’s next model could be a ‘watershed moment’ for cybersecurity 
    
  
                     Anthropic hat mit Mythos die Preview eines neuen, extrem leistungsstarken KI-Modells gestartet. Das Unternehmen verzichtet jedoch vorerst auf eine breite Veröffentlichung. Stattdessen erhalten exklusiv 40 ausgewählte Partner im Rahmen einer Cybersicherheits-Initiative Zugriff auf das System.                       Allianz für die Netzwerksicherheit Die neue Initiative trägt den Namen Project Glasswing. Anthropic bündelt darin die Ressourcen von mehr als 40 Partnerorganisationen aus der Technologiebranche. Zu diesem geschlossenen Konsortium zählen Entwickler wie Apple, Amazon, Microsoft und Google. Auch Infrastruktur-Spezialisten wie Cisco und Broadcom sowie die Linux Foundation beteiligen sich an dem Projekt. Das primäre Ziel dieser Kooperation ist die Identifikation von Schwachstellen in kritischer Software. Die Unternehmen nutzen die Preview von Mythos, um proprietäre First-Party-Systeme und essenzielle Open-Source-Projekte zu scannen. Anthropic unterstützt das Vorhaben finanziell und stellt Nutzungskredite im Wert von bis zu 100 Millionen US-Dollar bereit. Die Partner dokumentieren ihre Arbeit und teilen gewonnene Erkenntnisse später mit der restlichen Branche.                   Anzeige               Agentisches Coding und alte Zero-Day-Lücken Mythos wurde laut Anthropic nicht isoliert für die Cybersicherheit trainiert, liefert in diesem Bereich jedoch bereits beachtliche Resultate. In den vergangenen Wochen identifizierten die Modelle des Entwicklers tausende neue Zero-Day-Schwachstellen. Viele dieser Fehler stuft das Unternehmen als kritisch ein. Einige der Lücken existierten seit ein bis zwei Jahrzehnten unentdeckt in den Code-Datenbanken. Diese Effizienz resultiert aus der grundlegenden Architektur des Systems. Mythos ist ein allgemeines Claude-Modell, das ausgeprägte agentische Fähigkeiten sowie starkes Coding und Reasoning aufweist. Es agiert als Frontier-Modell, das komplexe Aufgabenstellungen weitgehend autonom bearbeitet. Bereits im vergangenen Monat tauchten erste Hinweise auf das System durch einen Leak unter dem Codenamen »Capybara« auf. Interne Dokumente beschrieben das Modell dort als neue Leistungsklasse, die sich deutlich über der bisherigen Opus-Stufe positioniert. Die aktuelle Zurückhaltung beim Release begründet Anthropic mit der enormen Leistungsfähigkeit der Technologie. Eine allgemeine Freigabe für reguläre Endnutzer ist für Mythos derzeit nicht geplant. Das System steht den offiziellen Partnern der Glasswing-Initiative ab sofort zur Verfügung.]]></description>
<author>aycaramba@all-ai.de (Andreas Becker)</author>
<category>Top News 2026</category>
<pubDate>Tue, 07 Apr 2026 20:32:11 +0200</pubDate>
</item>
<item>
<title>Intel baut Elon Musks neue Terafab</title>
<link>https://www.all-ai.de/news/news26/intel-musk-terafab</link>
<guid isPermaLink="true">https://www.all-ai.de/news/news26/intel-musk-terafab</guid>
<description><![CDATA[<p><img title="" src="https://www.all-ai.de/images/2-news/4-26/terafabrik-musk-intel-1600.webp" alt="Eine Intel Terafab in der Wüste"/></p> Nano Banana

                                


  
  
  

  
  
    
       
      Kurzfassung
      ▾
    

    
       
      Quellen
      ▾
    
  

  
  
    
    
      Intel beteiligt sich als Technologie- und Fertigungspartner an Elon Musks KI-Chipprojekt Terafab.
Die 25 Milliarden US-Dollar teure Anlage in Austin soll jährlich ein Terawatt an Rechenleistung produzieren.
Geplant sind zwei Fabriken für den Bau von irdischen Hochleistungschips für Tesla und orbitalen Systemen für SpaceX.
Musk reagiert mit dem Eigenbau auf mangelnde Kapazitäten bei etablierten Partnern wie TSMC und Samsung.
    
  

  
  
    
    
       Reuters - Intel to join Musk's Terafab mega AI chip project 

 Business Insider - Intel Stock Jumps After It Joins Elon Musk's Terafab Moonshot 

 The Verge - Intel will help build Elon Musk’s Terafab AI chip factory 

 RTE - Intel to join Musk's Terafab mega AI chip project 

 TechCrunch - Elon Musk unveils chip manufacturing plans for SpaceX and Tesla 
    
  
                     Intel fungiert als neuer Technologiepartner für Elon Musks KI-Chipprojekt Terafab. Der Halbleiterkonzern plant und baut die Anlage in Texas gemeinsam mit SpaceX, Tesla und xAI auf. Intel übernimmt dabei das Design und die Fertigung der Hochleistungschips.                       Produktionsziel von einem Terawatt Elon Musk investiert bis zu 25 Milliarden US-Dollar in den neuen Standort nahe dem Tesla-Hauptquartier in Austin. Terafab zielt dabei auf eine jährliche Produktionskapazität ab, deren Hardware im späteren Betrieb ein Terawatt an elektrischer Leistung benötigt. Die Planungen umfassen zwei getrennte Fabriken auf dem weitläufigen Gelände. Eine Einrichtung fertigt Halbleiter für Robotaxis und den humanoiden Roboter Optimus. Die zweite Anlage produziert spezielle, strahlungsresistente KI-Chips für den Einsatz im Weltraum. SpaceX plant den Aufbau von orbitalen KI-Rechenzentren. Terafab bündelt alle Schritte der Halbleiterproduktion unter einem Dach. Das Gemeinschaftsunternehmen integriert Chipdesign, Lithografie, Fertigung, Speicherproduktion und Advanced Packaging an einem einzigen Ort.                   Anzeige               Intel liefert wichtiges Hardware-Wissen Intel-CEO Lip-Bu Tan besiegelte die Zusammenarbeit bei einem Treffen mit Musk am vergangenen Wochenende. Intel stellt Terafab seine technologische Expertise zur Verfügung, um die komplexen Prozessoren im großen Maßstab zu entwerfen und zu verpacken. Die Finanzmärkte reagierten positiv auf die Ankündigung der Partnerschaft, wodurch der Aktienkurs von Intel umgehend anstieg. Musk begründet den Aufbau der eigenen Fertigung mit mangelnden Kapazitäten am Markt. Etablierte Hersteller decken den Hardware-Bedarf für die KI-Modelle seiner Firmen aktuell nicht schnell genug ab. Musk erklärte laut TechCrunch die Dringlichkeit der Lage: »Entweder man baut Terafab, oder man hat die Chips nicht«. Dennoch beziehen Tesla, SpaceX und xAI weiterhin Bauteile von Zulieferern wie TSMC, Samsung und Micron. Die ersten Bauarbeiten in Austin starten laut Musk bereits in wenigen Tagen.]]></description>
<author>aycaramba@all-ai.de (Andreas Becker)</author>
<category>News 2026</category>
<pubDate>Tue, 07 Apr 2026 20:08:48 +0200</pubDate>
</item>
<item>
<title>Warum OpenAI, Anthropic und Google plötzlich eng zusammenarbeiten</title>
<link>https://www.all-ai.de/news/beitrage2026/openai-anthropic-google-china</link>
<guid isPermaLink="true">https://www.all-ai.de/news/beitrage2026/openai-anthropic-google-china</guid>
<description><![CDATA[<p><img title="" src="https://www.all-ai.de/images/2-news/4-26/allianz-us-china-1600.webp" alt="3 Männer und China Hintergrund"/></p> Nano Banana

                                


  
  
  

  
  
    
       
      Kurzfassung
      ▾
    

    
       
      Quellen
      ▾
    
  

  
  
    
    
      OpenAI, Anthropic und Google arbeiten in einer seltenen Allianz an der aktiven Abwehr von chinesischen KI-Kopien.
Die Konzerne tauschen über das Frontier Model Forum Erkennungssignale für sogenannte Adversarial-Distillation-Angriffe aus.
Damit verhindern die US-Entwickler das gezielte Absaugen von Reasoning-Daten durch asiatische Wettbewerber.
Ziel ist der wirtschaftliche Schutz der teuren proprietären KI-Modelle vor günstigeren Open-Weight-Alternativen.
    
  

  
  
    
    
       Bloomberg – OpenAI, Anthropic, Google Unite to Combat Model Copying in China 

 Bloomberg Law – OpenAI, Anthropic, Google Unite to Combat Model Copying in China 

 The Straits Times – OpenAI, Anthropic, Google unite to combat AI model copying in China 

 The Japan Times – OpenAI, Anthropic and Google cooperate to fend off Chinese bids to copy AI models 

 Bloomberg Business auf X – OpenAI, Anthropic, Google Unite to Combat Model Copying in China 
    
  
                     Die führenden KI-Entwickler OpenAI, Anthropic und Google arbeiten bei der Abwehr von chinesischen Wettbewerbern eng zusammen. Wie Bloomberg exklusiv berichtet, teilen die Rivalen erstmals interne Erkennungssignale, um das systematische Kopieren ihrer KI-Modelle effektiv zu stoppen.                       Gemeinsame Front gegen Datendiebstahl Die US-Konzerne nutzen für den direkten Informationsaustausch das gemeinsam mit Microsoft gegründete Frontier Model Forum. Dort bündeln die Entwickler ihre aktuellen Erkenntnisse über sogenannte Adversarial-Distillation-Angriffe. Ziel der Allianz ist es, komplexe Verstöße gegen die Nutzungsbedingungen wesentlich schneller zu identifizieren. Bei dieser Technik greifen Konkurrenten gezielt die Ausgaben der fortschrittlichsten KI-Modelle ab. Die Angreifer nutzen diese extrahierten Daten anschließend für das Training eigener KI-Modelle. Besonders das Absaugen von tiefgreifenden Reasoning-Schritten und Chain-of-Thought-Prozessen liefert dabei höchst wertvolles Trainingsmaterial. Die kopierten Systeme erlangen dadurch logische Kernfähigkeiten, ohne eigene Sicherheitsvorkehrungen zu entwickeln.                   Anzeige               Wirtschaftlicher Druck auf dem Weltmarkt Proprietäre KI-Modelle aus den USA verursachen in der Entwicklung enorme Kosten. Chinesische Anbieter setzen dagegen bevorzugt auf sogenannte Open-Weight-Modelle. Diese asiatischen Varianten sind in der kommerziellen Nutzung deutlich günstiger und erzeugen einen hohen Preisdruck auf dem globalen Markt. Durch den systematischen Datendiebstahl umgehen die Wettbewerber die teuren finanziellen Investitionen in die Grundlagenforschung. OpenAI bestätigte die eigene Teilnahme an dem Informationsaustausch auf Nachfrage offiziell. Google, Anthropic und das Frontier Model Forum verweigern bisher jegliche Stellungnahme zu dem Vorgang. Das Frontier Model Forum stufte dieses Vorgehen bereits zuvor in einem Issue Brief als ernstes Branchenrisiko ein. Die seltene Kooperation der eigentlichen Konkurrenten unterstreicht die wirtschaftliche Brisanz des Themas auf dem internationalen Markt.]]></description>
<author>aycaramba@all-ai.de (Andreas Becker)</author>
<category>Top Beitraege 2026</category>
<pubDate>Tue, 07 Apr 2026 12:51:03 +0200</pubDate>
</item>
<item>
<title>Gemini-Update integriert Soforthilfe für mentale Krisen</title>
<link>https://www.all-ai.de/news/news26/gemini-soforthilfe-mental</link>
<guid isPermaLink="true">https://www.all-ai.de/news/news26/gemini-soforthilfe-mental</guid>
<description><![CDATA[<p><img title="" src="https://www.all-ai.de/images/2-news/4-26/google-mental-1600.webp" alt="3 Frauen in einem Gespräch"/></p> Nano Banana

                                


  
  
  

  
  
    
       
      Kurzfassung
      ▾
    

    
       
      Quellen
      ▾
    
  

  
  
    
    
      Gemini erhält ein neues One-Touch-Interface für den direkten Kontakt zu Krisen-Hotlines in psychischen Ausnahmesituationen.
Ein globales Förderprogramm stellt in den nächsten drei Jahren weltweit 30 Millionen US-Dollar für Hilfsorganisationen bereit.
ReflexAI nutzt das KI-Modell zukünftig für realitätsnahe Trainingssimulationen von Hotline-Personal.
Spezielle Schutzmechanismen verhindern aktiv, dass das Modell emotionale Abhängigkeiten erzeugt oder gefährliche Überzeugungen bestätigt.
    
  

  
  
    
    
       Google Blog: An update on our mental health work 

 YouTube: AI & Mental Health 
    
  
                     Ein neues Update bringt ein vereinfachtes One-Touch-Interface für das KI-Modell Gemini. Das Feature verbindet Nutzer in akuten mentalen Krisen sofort mit entsprechenden Hilfsangeboten. Ein globales Förderprogramm über 30 Millionen US-Dollar flankiert die Funktion.                       Schneller Zugang zur Notfallhilfe Gemini erhält das überarbeitete Modul »Help is available« für den Bereich der mentalen Gesundheit. Erkennt das KI-Modell konkrete Anzeichen für Suizidgedanken oder mögliche Selbstverletzung, erscheint ein neues Interface auf dem Bildschirm. Nutzer können über diese Schnittstelle mit einem einzigen Tippen direkten Kontakt zu Krisen-Hotlines aufnehmen. Sie haben dabei die Wahl zwischen einem Chat, einem Anruf, einer Textnachricht oder dem Besuch der entsprechenden Webseite. Die Option für das Einschalten professioneller Hilfe bleibt ab diesem Moment während der gesamten Unterhaltung deutlich sichtbar.               
  
  
               Millionen-Förderung für globale Organisationen Neben den technischen Anpassungen am Modell fließen in den kommenden drei Jahren weltweit 30 Millionen US-Dollar in den Ausbau diverser Notfall-Hotlines. Die Gelder sollen die Kapazitäten der Hilfsorganisationen für eine sichere Betreuung spürbar erweitern. Zusätzlich geht eine Direktfinanzierung in Höhe von 4 Millionen US-Dollar an das Projekt ReflexAI. Das Unternehmen integriert Gemini direkt in seine eigene Trainings-Suite. Mit realitätsnahen KI-Simulationen schult die Plattform fortan das Personal für kritische Gespräche am Telefon. Bildungseinrichtungen wie Erika’s Lighthouse oder Educators Thriving gehören zu den ersten Partnern dieser neuen Ausbaustufe.                   Anzeige               Schutzmechanismen im KI-Modell Spezielle Richtlinien trainieren Gemini speziell für den Umgang mit psychischen Ausnahmesituationen. Das KI-Modell priorisiert bei den Antworten stets die menschliche Verbindung und vermeidet strikt die Bestätigung schädlicher Verhaltensweisen. Stattdessen trennt das Modell subjektive Erfahrungen sanft von objektiven Fakten. Parallel greifen harte Schutzfunktionen für Minderjährige. Gemini agiert bewusst nicht als menschlicher Begleiter und blockiert jede Sprache, die emotionale Abhängigkeit oder gar Intimität simuliert. Nutzer finden die neuen Funktionen ab sofort in der Benutzeroberfläche.]]></description>
<author>aycaramba@all-ai.de (Andreas Becker)</author>
<category>News 2026</category>
<pubDate>Tue, 07 Apr 2026 12:30:08 +0200</pubDate>
</item>
<item>
<title>Anthropic's Gigawatt-Deal mit Google für neue KI-Modelle</title>
<link>https://www.all-ai.de/news/news26/anthropic-google-gigawatt</link>
<guid isPermaLink="true">https://www.all-ai.de/news/news26/anthropic-google-gigawatt</guid>
<description><![CDATA[<p><img title="" src="https://www.all-ai.de/images/2-news/4-26/anthropic-google-1600.webp" alt="Ein Anthropic Schaubild"/></p> Nano Banana

                                


  
  
  

  
  
    
       
      Kurzfassung
      ▾
    

    
       
      Quellen
      ▾
    
  

  
  
    
    
      Anthropic schließt einen neuen Vertrag mit Google und Broadcom für mehrere Gigawatt an TPU-Rechenleistung ab dem Jahr 2027 ab.
Der hochgerechnete Jahresumsatz des Unternehmens kletterte zuletzt auf 30 Milliarden US-Dollar.
Mehr als 1.000 Geschäftskunden geben inzwischen jährlich über eine Million US-Dollar für die Claude-Modelle aus.
Amazon AWS bleibt trotz der neuen Google-Infrastruktur der primäre Cloud-Anbieter für das KI-Unternehmen.
    
  

  
  
    
    
       Anthropic - Anthropic expands partnership with Google and Broadcom for multiple gigawatts of next-generation compute 
    
  
                     Anthropic treibt den Ausbau der eigenen Infrastruktur für zukünftige KI-Modelle voran und sichert sich ab 2027 mehrere Gigawatt an neuen Rechenkapazitäten. Das Unternehmen schließt dafür ein Abkommen mit Google und Broadcom für kommende TPU-Cluster.                       Steigende Umsätze durch Großkunden Anthropic verzeichnet derzeit ein hohes finanzielles Wachstum. Der hochgerechnete Jahresumsatz liegt mittlerweile bei 30 Milliarden US-Dollar. Ende 2025 stand dieser Wert noch bei knapp neun Milliarden US-Dollar. Auch die Basis der Großkunden wächst zügig. Mehr als 1.000 Unternehmen investieren inzwischen jeweils über eine Million US-Dollar pro Jahr in die Claude-Modelle. Diese Zahl verdoppelte sich in weniger als zwei Monaten. Anthropic-Finanzchef Krishna Rao verdeutlicht den Bedarf an neuen Servern: »Wir bauen die Kapazitäten auf, die notwendig sind, um das exponentielle Wachstum unserer Kundenbasis zu bedienen.«                   Anzeige               Diversifizierte Hardware-Strategie Der neue Vertrag weitet die bestehende Zusammenarbeit mit Google Cloud und Broadcom deutlich aus. Die geplanten Anlagen entstehen fast ausschließlich in den Vereinigten Staaten. Sie ergänzen ein im November 2025 gestartetes Investitionsprogramm über 50 Milliarden US-Dollar. Amazon bleibt trotz des Google-Deals der primäre Cloud-Anbieter und Trainingspartner für das KI-Unternehmen. Anthropic betreibt Claude weiterhin auf einer Kombination aus AWS Trainium, Google TPUs sowie Nvidia GPUs. So teilt der Entwickler die Arbeitslasten auf die jeweils am besten geeigneten Chips auf. Claude bleibt damit breitflächig nutzbar. Das KI-Modell steht Anwendern auf den großen Cloud-Plattformen von Amazon, Google und Microsoft bereit.]]></description>
<author>aycaramba@all-ai.de (Andreas Becker)</author>
<category>News 2026</category>
<pubDate>Tue, 07 Apr 2026 11:20:41 +0200</pubDate>
</item>
<item>
<title>Das KI-Modell GEN-1 bringt Robotern das Improvisieren bei</title>
<link>https://www.all-ai.de/news/news26/gen-1-generalist-new</link>
<guid isPermaLink="true">https://www.all-ai.de/news/news26/gen-1-generalist-new</guid>
<description><![CDATA[<p><img title="" src="https://www.all-ai.de/images/2-news/4-26/gen-1-start-1600.webp" alt="Roboter mit Gen-1"/></p> Nano Banana

                                


  
  
  

  
  
    
       
      Kurzfassung
      ▾
    

    
       
      Quellen
      ▾
    
  

  
  
    
    
      Das KI-Unternehmen Generalist AI hat das neue multimodale KI-Modell GEN-1 für die Robotik vorgestellt.
Die Modelle erreichen bei physischen Aufgaben wie dem Falten von Kartons eine Erfolgsquote von 99 Prozent.
Dank einer neuen Trainingsmethode agiert GEN-1 dreimal schneller als sein Vorgänger und kann Fehler in Echtzeit selbstständig korrigieren.
    
  

  
  
    
    
       Generalist AI Blog: GEN-1: Scaling Embodied Foundation Models to Mastery 

 YouTube: Introducing GEN-1 
    
  
                     Das KI-Unternehmen Generalist AI präsentiert mit GEN-1 ein neues multimodales KI-Modell für die Robotik. Das Modell erreicht bei physischen Aufgaben eine Erfolgsquote von 99 Prozent und bringt Handlungsfähigkeit in komplexe Umgebungen.                 
  
  
                           Höhere Geschwindigkeit und Präzision GEN-1 löst eine zentrale Herausforderung der Robotik: die langsame Ausführung von Aufgaben. Das KI-Modell agiert im Durchschnitt dreimal schneller als bisherige Spitzenreiter. Für das Falten eines Kartons benötigt das Modell beispielsweise lediglich 12,1 Sekunden. Das Vorgängermodell GEN-0 brauchte für denselben Vorgang noch rund 34 Sekunden.                  +           Quelle: Generalist               Gleichzeitig steigt die Zuverlässigkeit der Modelle deutlich. Bei filigranen Tätigkeiten wie dem Verpacken von Smartphones oder der Wartung von Saugrobotern erzielt GEN-1 konsistent Erfolgsquoten von 99 Prozent. Zum Vergleich lieferte der Vorgänger bei ähnlichen Arbeiten eine durchschnittliche Rate von 64 bzw.50 Prozent. Ohne vorheriges Pre-Training scheitern unvorbereitete Modelle meist sogar komplett.                    +                    +           Quelle: Generalist               Improvisation statt starrem Skript Herkömmliche Industrieroboter stoppen sofort bei Abweichungen vom strikt programmierten Ablauf. GEN-1 reagiert hingegen flexibel auf unvorhergesehene Veränderungen in der Umgebung. Verrutscht eine kleine Unterlegscheibe, erkennt das KI-Modell das Problem visuell. Es passt den Griff an oder nutzt spontan die zweite Hand für die korrekte Positionierung. Diese Fähigkeit zur Improvisation basiert auf einem tiefen Verständnis physikalischer Gesetzmäßigkeiten. Fällt ein Gegenstand aus der Hand, greifen die mechanischen Finger in Echtzeit nach, um den Fall abzufangen. In einem Versuch rüttelt das KI-Modell sogar selbstständig an einer Plastiktüte, um ein Plüschtier vollständig hineingleiten zu lassen. Entwickler programmieren solche spezifischen Korrekturbewegungen nicht mehr explizit vor.                   Anzeige               Daten aus der realen Welt Die Basis für diesen Fortschritt bilden neuartige Trainingsmethoden. Generalist AI verzichtet für das Basis-Training vollständig auf teure Teleoperation oder rein simulierte Datensätze. Das KI-Modell lernt stattdessen im Vorfeld aus 500.000 Stunden menschlicher Interaktion. Spezielle tragbare Sensoren erfassen diese feingliedrigen Bewegungsdaten direkt an menschlichen Händen. Um eine völlig neue physische Aufgabe zu erlernen, benötigt GEN-1 anschließend nur noch eine einzige Stunde an spezifischen Roboterdaten. Das senkt den Aufwand für die Adaption an neue Hardware drastisch. Weg in die wirtschaftliche Anwendung Die Kombination aus hohem Tempo, Ausfallsicherheit und spontaner Fehlerkorrektur öffnet neue Optionen für die kommerzielle Robotik. Die Modelle erreichen erstmals Leistungsniveaus, die den Einsatz außerhalb stark kontrollierter Fabrikhallen wirtschaftlich attraktiv machen. Dadurch lassen sich mechanische Helfer zunehmend in dynamischen Arbeitsumgebungen einsetzen.]]></description>
<author>aycaramba@all-ai.de (Andreas Becker)</author>
<category>News 2026</category>
<pubDate>Tue, 07 Apr 2026 11:05:11 +0200</pubDate>
</item>
<item>
<title>Googles Ironwood-Chip senkt Emissionen um Faktor 3,7</title>
<link>https://www.all-ai.de/news/news26/google-ironwood-emmisionen</link>
<guid isPermaLink="true">https://www.all-ai.de/news/news26/google-ironwood-emmisionen</guid>
<description><![CDATA[<p><img title="" src="https://www.all-ai.de/images/2-news/4-26/google-emmission-1600.webp" alt="Ein Schaubild zur Reduzierung des Stromverbrauchs"/></p> Nano Banana

                                


  
  
  

  
  
    
       
      Kurzfassung
      ▾
    

    
       
      Quellen
      ▾
    
  

  
  
    
    
      Die siebte TPU-Generation namens Ironwood verbessert die Compute Carbon Intensity im Vergleich zum Vorgänger um den Faktor 3,7.
Dieser Effizienzsprung gelingt primär durch eine verfünffachte Rechenleistung bei der Ausführung von KI-Modellen.
Auch ältere Architekturen wie Trillium und TPU v5e arbeiten dank klugem Server-Scheduling mittlerweile deutlich sparsamer.
Zusätzliche Software-Techniken wie Mixture of Experts und das 8-Bit-Zahlenformat (FP8) reduzieren den Energiebedarf pro Rechenschritt spürbar.
    
  

  
  
    
    
       Google Cloud Blog - AI infrastructure efficiency: Ironwood TPUs deliver 3.7x carbon efficiency gains 
    
  
                     Die siebte Generation der Tensor Processing Units unter dem Codenamen Ironwood verbessert die »Compute Carbon Intensity« gegenüber dem Vorgänger um den Faktor 3,7. Der Chip fängt den steigenden Energiebedarf von KI-Modellen durch eine verfünffachte Rechenleistung auf.                       Leistung steigt schneller als Emissionen Die Grundlage für diese Metrik bildet die Compute Carbon Intensity (CCI). Der Wert gibt in Gramm CO2-Äquivalent pro ExaFLOP an, wie viel Treibhausgas für eine Fließkommaoperation entsteht. Die Berechnung schließt sowohl den direkten Betrieb im Rechenzentrum als auch die Emissionen für Herstellung und Transport der Hardware ein. Bei der Ironwood-Architektur sinkt dieser Indikator deutlich ab. Während der Vorgänger TPU v5p insgesamt noch 292 gCO2e/EFLOP erzeugte, verursacht Ironwood lediglich 79 gCO2e/EFLOP. Dieser Rückgang resultiert primär aus dem hohen Leistungszuwachs der Chips. Die effektiv genutzten FLOPs steigen im direkten Vergleich um den Faktor 5, wodurch der relative CO2-Fußabdruck pro einzelner Rechenoperation stark einbricht.                  +           Quelle: Google               Software optimiert bestehende Hardware Die Effizienzgewinne beschränken sich nicht ausschließlich auf kommende Hardware-Generationen. Auch bereits installierte Systeme arbeiten mittlerweile messbar sparsamer. Bei der sechsten Generation Trillium fiel die CCI laut den aktuellen Messreihen innerhalb von 15 Monaten um 20 Prozent auf exakt 125 gCO2e/EFLOP. Die Architektur TPU v5e verzeichnet im selben Zeitraum sogar einen Rückgang von 43 Prozent. Eine intelligente Orchestrierung der Serverflotte verteilt die Auslastung präziser und senkt den Stromverbrauch der Maschinen im Leerlauf. Parallel dazu reduzieren moderne Software-Ansätze den reinen Rechenaufwand. Sparse-Architekturen wie Mixture of Experts (MoE) aktivieren punktgenau nur die benötigten Parameter eines KI-Modells. Die verstärkte Nutzung des 8-Bit-Zahlenformats (FP8) halbiert zudem die Anforderungen an die Speicherbandbreite und verdoppelt den Datendurchsatz bei konstant hoher Ausgabequalität. Der Energiebedarf für KI-Workloads sinkt dadurch spürbar durch das Zusammenspiel aus Hardware-Dichte und optimiertem Code.                  +           Quelle: Google                         Anzeige]]></description>
<author>aycaramba@all-ai.de (Andreas Becker)</author>
<category>News 2026</category>
<pubDate>Mon, 06 Apr 2026 18:45:00 +0200</pubDate>
</item>
</channel>
</rss>