Value ranking

Best value on RULER 128k

Long-context retrieval and reasoning suite. We report the 128k token effective-context score.

“Value” is normalized benchmark score (0–100 for this leaderboard cohort) divided by input price per million tokens. Higher means more capability per dollar on this axis only — always sanity-check latency, context length, and your real workload.

1
Gemini 1.5 Flash
Google
1116.27
83.7 / $0.08/M
2
Gemini 2.0 Flash
Google
953.50
95.3 / $0.10/M
3
GPT-4o mini
OpenAI
465.13
69.8 / $0.15/M
4
Qwen3 235B
Alibaba (Qwen)
418.60
83.7 / $0.20/M
5
Llama 4 Scout
Meta
400.50
72.1 / $0.18/M
6
Llama 4 Maverick
Meta
327.30
88.4 / $0.27/M
7
DeepSeek V3
DeepSeek
292.85
79.1 / $0.27/M
8
DeepSeek R1
DeepSeek
152.22
83.7 / $0.55/M
9
Claude 3.5 Haiku
Anthropic
87.21
69.8 / $0.80/M
10
Gemini 2.5 Pro
Google
80.00
100.0 / $1.25/M
11
Gemini 1.5 Pro
Google
78.14
97.7 / $1.25/M
12
o3-mini
OpenAI
76.11
83.7 / $1.10/M
13
Llama 3.3 70B Instruct
Meta
66.07
58.1 / $0.88/M
14
Qwen2.5 72B Instruct
Alibaba (Qwen)
64.60
58.1 / $0.90/M
15
Llama 3.1 70B Instruct
Meta
55.50
48.8 / $0.88/M
16
Grok 2
xAI
34.88
69.8 / $2.00/M
17
GPT-4o
OpenAI
33.49
83.7 / $2.50/M
18
Claude Sonnet 4
Anthropic
31.01
93.0 / $3.00/M
19
Grok 3
xAI
31.01
93.0 / $3.00/M
20
Claude 3.5 Sonnet
Anthropic
29.46
88.4 / $3.00/M
21
o1-mini
OpenAI
26.36
79.1 / $3.00/M
22
Mistral Large 2
Mistral
23.25
46.5 / $2.00/M
23
Llama 3.1 405B Instruct
Meta
16.61
58.1 / $3.50/M
24
o3
OpenAI
9.77
97.7 / $10.00/M
25
Claude Opus 4
Anthropic
6.51
97.7 / $15.00/M

Open full leaderboard

AI Model Analyzer does not recommend specific vendors; rankings are derived from public data only.