Werbung



KINews

MCP-Universe-Benchmark zeigt: GPT-5 scheitert an mehr als der Hälfte aller Praxisaufgaben

ChatGPT Prompt Tipps ChatGPT-5 kostenlos ChatGPT Branching Funktion

Werbung



Der neue MCP-Universe-Benchmark von Salesforce zeigt deutliche Schwächen aktueller KI-Modelle bei realen Unternehmensaufgaben. Besonders GPT-5 hat Schwierigkeiten, viele alltägliche Orchestrierungsaufgaben zu erfüllen.

Realitätsnahe Benchmarking-Umgebung für KI-Modelle

Unternehmen setzen zunehmend auf Interoperabilitätsstandards wie das Model Context Protocol (MCP), um zu verstehen, wie KI-Agent:innen und Modelle in der realen Praxis agieren. Viele bisherige Benchmarks spiegeln echte Interaktionen über MCP jedoch nicht umfassend wider. Das Salesforce AI Research Team hat deshalb einen neuen Open-Source-Benchmark namens MCP-Universe entwickelt. Ziel ist es, zu messen, wie große Sprachmodelle wie GPT-5 mit tatsächlichen MCP-Servern im Unternehmensalltag interagieren. Der Benchmark legt Wert auf den Umgang mit Werkzeugen, Mehrfachinteraktionen in mehreren Schritten sowie lange Kontextfenster. Dabei nutzt MCP-Universe bestehende MCP-Server samt Verbindungen zu realen Datenquellen und Umgebungen. Laut Salesforce konzentrieren sich bisherige Benchmarks oft auf Einzelkompetenzen wie Befolgen von Anweisungen oder mathematisches Denken, ohne umfassend abzubilden, wie Modelle mit verschiedenen realen Anforderungen und Tools im Unternehmenskontext umgehen.

Herausforderungen und Evaluationsmethoden

Junnan Li, Forschungsleiter bei Salesforce, sieht in aktuellen KI-Modellen zwei zentrale Schwächen: Probleme mit langen Kontexten und die eingeschränkte Fähigkeit zum Einsatz unbekannter Tools. Viele Modelle können den Überblick bei langen oder komplexen Eingaben verlieren beziehungsweise sich nicht spontan auf neue Systeme einstellen. Deshalb empfiehlt Li Unternehmen, nicht auf selbstentwickelte Einzelmodelle zu setzen, sondern auf Plattformen, welche Kontext, intelligente Steuerung und Kontrollmechanismen kombinieren. MCP-Universe prüft, wie Modelle Aufgaben in sechs Bereichen lösen: Navigation, Repository-Management, Finanzanalyse, 3D-Design, Browser-Automatisierung und Websuche. Die Tests erfolgten an elf verschiedenen MCP-Servern mit insgesamt 231 Einzelfällen, wobei für jede Domäne vier bis fünf typische Aufgaben erstellt wurden. Beispiele sind etwa Routenplanung mit Bestimmung optimaler Zwischenstopps. Die Evaluation erfolgt durch Ausführen der Aufgaben, nicht per Bewertung eines weiteren Sprachmodells. Format-, statische und dynamische Evaluatoren prüfen korrekten Output, dauerhafte Korrektheit und passende Antworten auf aktuelle, sich ändernde Informationen wie Flugpreise oder GitHub-Tickets.

Ergebnisse und Ausblick für Unternehmen

Salesforce testete den MCP-Universe-Benchmark mit Modellen wie GPT-5, Grok-4, Claude-4, GPT-4.1, Google Gemini 2.5 Pro, GLM-4.5, DeepSeek-V3-0304 und mehr, allesamt mit mindestens 120 Milliarden Parametern. GPT-5 zeigte dabei die höchste Erfolgsquote, insbesondere bei Finanzanalysen. Grok-4 überzeugte bei Browser-Automation, während Claude-4 insgesamt solide, aber nie besser als die beiden erstgenannten Modelle abschnitt. Im Open-Source-Segment schnitt GLM-4.5 am besten ab. Trotz punktueller Erfolge zeigten alle Modelle deutliche Schwächen. Bei langen Kontexten und bei Aufgaben in Navigation, Browser-Automatisierung sowie Finanzwesen sinkt die Effizienz der Modelle spürbar, vor allem, sobald unbekannte Werkzeuge integriert werden müssen. Mehr als die Hälfte der Praxisaufgaben blieben ungelöst. Salesforce betont, dass aktuelle KI-Modelle damit die Anforderungen vieler realer Unternehmensszenarien noch nicht erfüllen. MCP-Universe bietet Unternehmen daher ein anspruchsvolles und praxisnahes Testfeld, um Schwächen zu erkennen und Verbesserungen an eigenen Frameworks oder MCP-Implementierungen vorzunehmen.

Via: https://venturebeat.com

Den Beitrag in unserem Forum kommentieren

Werbung



Tags: Salesforce, KI-Modelle, GPT-5, MCP-Universe, Agent:innen, Unternehmensaufgaben, Model Context Protocol, Orchestrierung, real-world tasks, Benchmark

Ähnliche Artikel

Werbung



Einkaufstipps
Beliebte Artikel

Werbung