DeepSeek-Modelle übertreffen Konkurrenz in Benchmark-Tests

In unabhängigen Leistungstests schlägt DeepSeek seine namhaften Konkurrenten in mehreren Disziplinen. So erzielte das neueste Modell DeepSeek V3 im Programmier-Benchmark HumanEval 82,6 Punkte und übertraf damit OpenAIs GPT-4o (80,5 Punkte).

Auch bei komplexen Coding-Challenges (Codeforces) lag DeepSeek V3 mit 51,6 Punkten deutlich vor GPT-4o (23,6 Punkte).

Experten führen die Stärke von DeepSeek in Logik- und Mathematikaufgaben auf die effiziente Mixture-of-Experts-Architektur und verstärktes RL-Training zurück, mit der das Modell quasi menschliche „Chain-of-Thought“-Problemlösungen erreicht.

Schreibe einen Kommentar

Schreibe einen KommentarAntworten abbrechen