MMLU-Pro

general

text

About

MMLU-Pro benchmark

Evaluation Stats

Total Models60

Organizations11

Verified Results0

Self-Reported60

Benchmark Details

Max Score1

Language

en

Performance Overview

Score distribution and top performers

Score Distribution

60 models

Top Score

85.0%

Average Score

63.3%

High Performers (80%+)

6

Top Organizations

#1DeepSeek

4 models

81.5%

#2Moonshot AI

2 models

75.2%

#3OpenAI

2 models

73.6%

#4Anthropic

5 models

68.8%

#5Meta

6 models

68.6%

Leaderboard

Top 20 models ranked by performance

1

DeepSeek-R1-0528

85.0%

Raw: 0.85

Self-reported

2

84.0%

Raw: 0.84

Self-reported

3

Qwen3-235B-A22B-Instruct-2507

83.0%

Raw: 0.83

Self-reported

4

DeepSeek-V3 0324

81.2%

Raw: 0.812

Self-reported

5

Kimi K2 Instruct

81.1%

Raw: 0.811

Self-reported

6

Llama 4 Maverick

80.5%

Raw: 0.805

Self-reported

7

Claude 3.5 Sonnet

77.6%

Raw: 0.776

Self-reported

8

Gemini 2.0 Flash

76.4%

Raw: 0.764

Self-reported

9

Claude 3.5 Sonnet

76.1%

Raw: 0.761

Self-reported

10

Phi 4 Reasoning Plus

76.0%

Raw: 0.76

Self-reported

11

75.9%

Raw: 0.759

Self-reported

12

75.8%

Raw: 0.758

Self-reported

13

by xAI

75.5%

Raw: 0.755

Self-reported

14

74.7%

Raw: 0.747

Self-reported

15

Phi 4 Reasoning

74.3%

Raw: 0.743

Self-reported

16

74.3%

Raw: 0.743

Self-reported

17

Llama 3.1 405B Instruct

73.3%

Raw: 0.733

Self-reported

18

72.6%

Raw: 0.726

Self-reported

19

by xAI

72.0%

Raw: 0.72

Self-reported

20

Gemini 2.0 Flash-Lite

71.6%

Raw: 0.716

Self-reported

Showing top 20 of 60 models