BIG-Bench Hard

general

text

About

BIG-Bench Hard benchmark

Evaluation Stats

Total Models21

Organizations4

Verified Results0

Self-Reported21

Benchmark Details

Max Score1

Language

en

Performance Overview

Score distribution and top performers

Score Distribution

21 models

Top Score

93.1%

Average Score

71.2%

High Performers (80%+)

8

Top Organizations

#1Anthropic

5 models

85.9%

#2Microsoft

3 models

72.8%

#3Google

10 models

65.4%

#4IBM

3 models

64.7%

Leaderboard

Top 20 models ranked by performance

1

Claude 3.5 Sonnet

93.1%

Raw: 0.931

Self-reported

2

Claude 3.5 Sonnet

93.1%

Raw: 0.931

Self-reported

3

89.2%

Raw: 0.892

Self-reported

4

87.6%

Raw: 0.876

Self-reported

5

86.8%

Raw: 0.868

Self-reported

6

85.7%

Raw: 0.857

Self-reported

7

Gemini 1.5 Flash

85.5%

Raw: 0.855

Self-reported

8

Claude 3 Sonnet

82.9%

Raw: 0.829

Self-reported

9

Phi-3.5-MoE-instruct

79.1%

Raw: 0.791

Self-reported

10

73.7%

Raw: 0.737

Self-reported

11

72.2%

Raw: 0.722

Self-reported

12

70.4%

Raw: 0.704

Self-reported

13

Granite 3.3 8B Instruct

by IBM

69.1%

Raw: 0.6913

Self-reported

14

Granite 3.3 8B Base

by IBM

69.1%

Raw: 0.6913

Self-reported

15

Phi-3.5-mini-instruct

69.0%

Raw: 0.69

Self-reported

16

IBM Granite 4.0 Tiny Preview

by IBM

55.7%

Raw: 0.557

Self-reported

17

Gemma 3n E4B Instructed LiteRT Preview

52.9%

Raw: 0.529

Self-reported

18

52.9%

Raw: 0.529

Self-reported

19

44.3%

Raw: 0.443

Self-reported

20

Gemma 3n E2B Instructed LiteRT (Preview)

44.3%

Raw: 0.443

Self-reported

Showing top 20 of 21 models