MultiPL-E

general

text

About

MultiPL-E benchmark

Evaluation Stats

Total Models10

Organizations2

Verified Results0

Self-Reported10

Benchmark Details

Max Score100

Language

en

Performance Overview

Score distribution and top performers

Score Distribution

10 models

Top Score

87.9%

Average Score

72.7%

High Performers (80%+)

2

Top Organizations

#1Moonshot AI

1 model

85.7%

#2Alibaba

9 models

71.3%

Leaderboard

Top 10 models ranked by performance

1

Qwen3-235B-A22B-Instruct-2507

87.9%

Raw: 87.9

Self-reported

2

Kimi K2 Instruct

85.7%

Raw: 85.7

Self-reported

3

Qwen2.5 32B Instruct

75.4%

Raw: 75.4

Self-reported

4

Qwen2.5 72B Instruct

75.1%

Raw: 75.1

Self-reported

5

Qwen2.5 14B Instruct

72.8%

Raw: 72.8

Self-reported

6

Qwen2.5 7B Instruct

70.4%

Raw: 70.39999999999999

Self-reported

7

Qwen2 72B Instruct

69.2%

Raw: 69.19999999999999

Self-reported

8

Qwen3 235B A22B

65.9%

Raw: 65.94

Self-reported

9

Qwen2.5-Omni-7B

65.8%

Raw: 65.8

Self-reported

10

Qwen2 7B Instruct

59.1%

Raw: 59.09999999999999

Self-reported