MathVista

math

text

About

MathVista benchmark

Evaluation Stats

Total Models35

Organizations10

Verified Results0

Self-Reported33

Benchmark Details

Max Score1

Language

en

Performance Overview

Score distribution and top performers

Score Distribution

35 models

Top Score

86.8%

Average Score

62.6%

High Performers (80%+)

2

Top Organizations

#1Moonshot AI

1 model

74.9%

#2Alibaba

2 models

69.7%

#3Anthropic

1 model

67.7%

#4Mistral AI

3 models

64.8%

#5OpenAI

11 models

63.5%

Leaderboard

Top 20 models ranked by performance

1

86.8%

Raw: 0.868

Self-reported

2

84.3%

Raw: 0.843

Self-reported

3

74.9%

Raw: 0.749

Self-reported

4

Llama 4 Maverick

73.7%

Raw: 0.737

Self-reported

5

73.1%

Raw: 0.731

Self-reported

6

72.3%

Raw: 0.723

Self-reported

7

72.2%

Raw: 0.722

Self-reported

8

71.8%

Raw: 0.718

Self-reported

9

QvQ-72B-Preview

71.4%

Raw: 0.714

Self-reported

10

70.7%

Raw: 0.707

Self-reported

11

69.4%

Raw: 0.694

Self-reported

12

by xAI

69.0%

Raw: 0.69

Self-reported

13

by xAI

68.1%

Raw: 0.681

Self-reported

14

68.1%

Raw: 0.681

Self-reported

15

Qwen2.5-Omni-7B

67.9%

Raw: 0.679

Self-reported

16

Claude 3.5 Sonnet

67.7%

Raw: 0.677

Self-reported

17

Mistral Small 3.2 24B Instruct

67.1%

Raw: 0.6709

Self-reported

18

Gemini 1.5 Flash

65.8%

Raw: 0.658

Self-reported

19

63.8%

Raw: 0.638

Self-reported

20

62.8%

Raw: 0.628

Self-reported

Showing top 20 of 35 models