Dieser Artikel berichtet über die Entwicklung neuer KI-Tests, die die Grenzen gängiger Modelle aufzeigen, sowie über fortschrittliche KI-Assistenten, die die Interaktion mit dem Internet revolutionieren.
Während führende KI-Modelle bei gängigen Benchmarks laut ihren Anbietern 90 Prozent der Aufgaben korrekt lösen, haben Scale AI und das Center for AI Safety nun einen anspruchsvolleren Test entwickelt. Scale AI, ein Anbieter von KI-Trainingsdaten, und das Center for AI Safety, eine Non-Profit-Organisation für KI-Sicherheit und -Ethik, haben einen Benchmark geschaffen, bei dem selbst die besten KI-Modelle nur etwa 10 Prozent der Aufgaben bewältigen können.
Für 'Last Exam' wurden aus ursprünglich 70.000 Expertenfragen durch einen mehrstufigen Auswahlprozess 3.000 Aufgaben aus verschiedenen akademischen Bereichen wie Naturwissenschaften, Mathematik und Geisteswissenschaften ausgewählt. Selbst fortschrittliche KI-Modelle wie GPT-4o und o1, Claude oder Gemini scheitern an vielen dieser Aufgaben, wie etwa Fragen zum Skelettaufbau eines Kolibris. Allerdings ist auch dieser Benchmark nur bedingt aussagekräftig für die Leistungsfähigkeit von KI-Modellen, da ein Wissenstest auch durch reines Auswendiglernen ohne jegliche Schlussfolgerungsfähigkeit gelöst werden kann. \OpenAI hat mit dem neuen KI-Agenten 'Operator' einen weiteren Schritt in Richtung KI-Integration in das Internet gemacht. Operator ist wie ein virtueller Assistent, der im Web agiert. Der KI-Agent hat dafür seinen eigenen Browser (in der Cloud), mit dem er interagiert, tippt, klickt und scrollt. Das ist transparent für die Nutzerin, die einzelnen Schritte werden visuell dargestellt und der Mensch kann jederzeit übernehmen. Operator basiert auf einem neuen KI-Modell namens 'Computer-Using Agent' (CUA). Dieser CUA nutzt die Bildverarbeitungsfähigkeiten von GPT-4o und kombiniert sie mit Reasoning durch bestärkendes Lernen. OpenAI kooperiert bereits mit Internet-Unternehmen wie DoorDash, Instacart, OpenTable, StubHub und Uber, sodass der Nutzer diese im Operator direkt auswählen kann, um etwa Lebensmittelbestellungen aufzugeben, einen Tisch im Restaurant zu reservieren, Eintrittskarten zu kaufen oder eine Fahrt zu bestellen. \Auch Perplexity Assistant hat neue Funktionen erhalten. Der KI-Assistent soll unter anderem einen Tisch im Restaurant buchen, E-Mails verfassen, Mitfahrgelegenheiten buchen und Erinnerungen an Termine einrichten können. Perplexity Assistant ist kostenlos im Google Play Store verfügbar, für iOS gibt es ihn bisher nicht. Zwei weitere Updates für die Canvas-Funktion in ChatGPT, die Text- und Code-Inhalte in einem separaten Fenster im Chatbot anzeigt, sind bereits allgemein verfügbar. So können Nutzende jetzt in Canvas das o1-Modell nutzen. Außerdem kann HTML- und React-Code nun direkt in Canvas gerendert werden – das erspart Entwicklerinnen und Entwicklern etwa das Herunterladen und Ausführen von HTML-Code für einen ersten Check. Dasist für alle ChatGPT-Nutzerinnen und Nutzer verfügbar, während o1 nur zahlenden Pro-, Plus- und Team-Kunden vorbehalten bleibt. Zudem wurde Canvas vollständig in die ChatGPT-Desktop-App für macOS integriert. Enterprise- und Edu-Nutzende sollen die Neuerungen in einigen Wochen erhalten. Mit den Verbesserungen zieht OpenAI bei Canvas mit dem Konkurrenten Anthropic gleich. Dieser bietet mit 'Artifacts' schon länger eine ähnliche Funktion für seinen KI-Chatbot Claude.ai an
KI Künstliche Intelligenz KI-Tests Openai Operator Perplexity Assistant Chatgpt Canvas Deepseek R1
Deutschland Neuesten Nachrichten, Deutschland Schlagzeilen
Similar News:Sie können auch ähnliche Nachrichten wie diese lesen, die wir aus anderen Nachrichtenquellen gesammelt haben.
Squid Game 2: Neue Spiele, neue Herausforderungen und ein Tribut an ThanosDie zweite Staffel von 'Squid Game' ist auf Netflix angekommen und bietet neue Spiele, neue Teilnehmer und eine spannende Fortsetzung der Geschichte von Gi-hun. In dieser Staffel wird dem wohl größten Bösewicht des MCU, Thanos, Tribut gezollt.
Weiterlesen »
Jennifer Saro: Neue Liebe, Neue HerausforderungenJennifer Saro, ehemalige Bachelorette, ist seit Sommer 2023 in einer Fernbeziehung mit dem Fußballer Alexander Meyer. Trotz der 500 Kilometer Distanz sind sie glücklich und sehen sich regelmäßig. Saro schätzt besonders Meyers liebevollen Umgang mit ihrem Sohn 'Keksi', der das Prader-Willi-Syndrom hat.
Weiterlesen »
Deutsche Teams Steigen in der SidecarCross-WM einNeue Teams und Fahrer stellen sich der Herausforderungen der SidecarCross-WM Saisonbeginn mit Tests in Eersel.
Weiterlesen »
ChatGPT Tasks: Neue Funktion soll ChatGPT zum persönlichen Assistenten machenMonatliche Vorschläge für die Budgetplanung, wöchentliche Übersichten über das Training im Fitnessstudio oder eine tägliche Dankbarkeitsübung: Das alles sollen User künftig via ChatGPT Tasks arrangieren
Weiterlesen »
Maul- und Klauenseuche stellt sächsische Landwirtschaft vor neue HerausforderungenDie sächsische Landwirtschaft erfuhr 2024 einen Umsatzanstieg von 2,4 Prozent, erreichte jedoch mit dem Ausbruch der Maul- und Klauenseuche eine neue Herausforderung. Der Landwirtschaftsminister warnt vor enormen wirtschaftlichen Schäden, insbesondere für die Milchwirtschaft.
Weiterlesen »
Joko gegen Klaas - Das Duell um die Welt: Neue Herausforderungen und prominente KandidatenDie neue Staffel von Joko gegen Klaas - Das Duell um die Welt startet am kommenden Samstag. Joko Winterscheidt und Klaas Heufer-Umlauf kämpfen erneut mit ihren Promi-Teams in spannenden Challenges um den Sieg. Team Joko wird von Katrin Bauerfeind und Wilson Gonzalez Ochsenknecht unterstützt, während Team Klaas auf Felix Kroos und Christoph Dommisch setzt. Die Teams müssen sich auf der ganzen Welt neuen Herausforderungen stellen, von Mountainbike-Rennen in Slowenien bis hin zu Bobbahn-fahrten in Lettland.
Weiterlesen »