Value ranking

Best value on SimpleQA Verified

A human-validated factuality benchmark of short factual questions whose answers can be checked against a single ground truth. Penalises hallucinations by scoring confidently-wrong answers below abstentions.

“Value” is normalized benchmark score (0–100 for this leaderboard cohort) divided by input price per million tokens. Higher means more capability per dollar on this axis only — always sanity-check latency, context length, and your real workload.

1
Qwen3 235B (Thinking)
Alibaba (Qwen)
309.55
61.9 / $0.20/M
2
Gemini 3 Flash
Google
287.10
86.1 / $0.30/M
3
GPT-5 nano
OpenAI
176.40
8.8 / $0.05/M
4
GPT-5 mini
OpenAI
84.60
21.1 / $0.25/M
5
Gemini 3 Pro
Google
80.00
100.0 / $1.25/M
6
GLM-4.7
Zhipu AI (GLM)
71.70
35.9 / $0.50/M
7
Kimi K2
Moonshot (Kimi)
65.37
39.2 / $0.60/M
8
Gemini 2.5 Pro
Google
56.14
70.2 / $1.25/M
9
DeepSeek R1
DeepSeek
55.00
30.3 / $0.55/M
10
GPT-5.5
OpenAI
53.41
80.1 / $1.50/M
11
GPT-5
OpenAI
50.09
62.6 / $1.25/M
12
GPT-5.1
OpenAI
48.18
60.2 / $1.25/M
13
GPT-5.2
OpenAI
36.98
46.2 / $1.25/M
14
GPT-5.4
OpenAI
36.35
54.5 / $1.50/M
15
o4-mini
OpenAI
22.92
25.2 / $1.10/M
16
Grok 4
xAI
11.76
58.8 / $5.00/M
17
Claude Sonnet 4.6
Anthropic
10.78
32.4 / $3.00/M
18
Claude Sonnet 4.5
Anthropic
8.26
24.8 / $3.00/M
19
o3
OpenAI
6.60
66.0 / $10.00/M
20
Claude Opus 4.7
Anthropic
4.17
62.6 / $15.00/M
21
Claude Opus 4.6
Anthropic
3.79
56.8 / $15.00/M
22
Claude Opus 4.5
Anthropic
3.35
50.3 / $15.00/M
23
Claude Opus 4
Anthropic
2.70
40.5 / $15.00/M
24
Claude 3.5 Haiku
Anthropic
1.40
1.1 / $0.80/M
25
Claude Haiku 4.5
Anthropic
0.00
0.0 / $1.00/M

Open full leaderboard

AI Model Analyzer does not recommend specific vendors; rankings are derived from public data only.