1-4切换模型
D切换下钻场景
F全屏图表
Esc重置选择
V视频对比
📖

维度热力矩阵 · 原理说明

三种模式的设计逻辑与颜色规则
🔍
单模型深挖
深入一个模型,看它在每个维度和场景下的绝对表现
🎨 颜色 = 分数映射
hue = ((score - 1) / 4) × 120°
1分 红 3分 黄 5分 绿
红=差 → 黄=中 → 绿=好
🔢 显示值
格内数字 = 该模型在该维度+场景下的 4条用例均值(1-5分)
⚔️
双模型对比
逐格做减法,用红蓝冷暖色直观表达优劣方向
🎨 颜色 = 差值驱动
diff = scoreA − scoreB
intensity = min(1, |diff| / 3) × 0.7
A更强(+3) 打平(0) B更强(−3)
红色优势=模型A领先 · 蓝色优势=模型B领先
差距<3分渐进加深,≥3分达满饱和度
🔢 显示值
格内数字 = +1.23−0.87(带符号差值)
悬浮可看两模型原始分数
📊
全模型对比
取所有模型分数的算术平均,代表行业基线水平
🎨 颜色 = 均值映射
avg = Σ scores / N(N=有效模型数,剔除null)
配色规则同 Deep 模式hue = ((avg-1)/4)×120°
红=行业短板 · 黄=行业平均 · 绿=行业领先
🔢 显示值
格内数字 = 所有模型在该格子的平均分
悬浮可看每个模型的独立分数徽章
📜

时代背书 · BI 血缘

OLAP Cube → 维度热力矩阵
BI 时代(1990s–)核心技术
数据结构OLAP Cube 多维立方体
事实表 + 维度表 → 交叉聚合
可视化交叉表热力图(Cross-tab Heatmap)
行列二维 + 颜色编码第三维度
交互范式切片 / 切块 / 下钻
Slice · Dice · Drill-down
代表工具Tableau · Power BI · Cognos · MicroStrategy
核心理念"Overview first, zoom and filter,
then details-on-demand" — Shneiderman
「先概览,再缩放过滤,最后按需查看细节」
本页映射(同样的范式)
数据结构3 维 Cube:模型 × 场景 × 评测维度
事实值 = AVG(4条用例评分),1-5分
可视化10×6 热力矩阵
行=维度 · 列=场景 · 颜色=分数
交互范式Deep / Dual / All 三种模式
点击格子 → 下钻 4 条用例 + 视频
颜色规则HSL(hue,65%,48%)
hue = ((score-1)/4)×120°
分析对象从「华北区 Q3 营收」
变成了「ViduQ3 画质得分」
📊 同一张交叉表热力图,换了分析对象
传统 BI 用例(Tableau / Power BI):          本页用例:

┌──────────────────────────────┐        ┌──────────────────────────────┐
│ 区域\产品    手机     电脑    │        │ 维度\场景    漫剧     短剧    │
│ 华北         ████     ██     │        │ 画质         ████     ██     │
│ 华东         ██       ████   │        │ 连贯性       ██       ████   │
│ 华南         █████    █      │        │ 创意         █████    █      │
└──────────────────────────────┘        └──────────────────────────────┘

颜色深浅 = 销售额高低                    颜色红绿 = 评分高低 (1-5 分)
聚合函数 = SUM / AVG                     聚合函数 = AVG (4 条用例)
钻取路径 = 年 → 季 → 月 → 日              钻取路径 = 模型 → 场景 → 维度 → 用例
相同的 OLAP 数据结构、相同的交叉表热力图范式、相同的切片下钻交互——BI 思想在 AI 评测领域的自然下沉
🔬 三种聚合哲学:同一张表,不同的"怎么看"
AVG 均值聚合
"平均水平是多少?"
avg = (4.2+3.1+3.0+3.3) / 4 = 3.40 → 一个数字概括全局 → 信息压缩到极致
✅ 瞬间理解 · N模型天然扩展
❌ 完全抹掉方差:[5,5,1,1] 和 [3,3,3,3] 均值一样
→ 对应 All 模式(悬浮徽章部分弥补方差)
SBS 并排减法
"A 比 B 好多少?"
diff = score[A] - score[B] → 逐格做减法 → 红蓝冷暖色定胜负 → 每一格都有明确方向
✅ 决策友好 · 胜负分明
❌ 只能比 2 个 · 不知道绝对值
→ 对应 Dual 模式
GSB 基准定标
"谁达标?谁不达标?"
选一个基准模型(Benchmark) 其他模型和它比: diff>+0.5 → Good 🟢 |diff|≤0.5 → Same 🟡 diff<−0.5 → Bad 🔴 → 离散三档,放弃连续值
✅ 直觉 · 天然N模型 · 及格线清晰
❌ 需要一个「基准」锚定 · 粗粒度
→ 本页尚未实现(未来可加)
📋 本页矩阵覆盖情况:
Deep = 绝对值评估(不问对比,只看自己几分)
Dual = SBS 并排对比(逐格减法,红蓝定胜负)
All = AVG 均值聚合(行业基线,悬浮徽章部分弥补方差)
GSB = 未实现(需选一个模型当基准,其他模型逐格自动判定 Good / Same / Bad)
同一张交叉表,聚合函数不同 → 回答的问题完全不同。AVG 告诉你"大盘",SBS 告诉你"胜负",GSB 告诉你"及格线"。
💡 一句话:BI 时代的多维分析引擎装进一个网页——事实表的度量值从「Q3 华北区营收」变成了「ViduQ3 在 AI 漫剧场景下的画质得分」。评测本身就是一个数据分析问题。

LLM-Depth Evaluation

Heatmap Matrix · 多模型多维深潜分析 — ZZSH Arister

🔥 维度 × 场景 热力图

点击联动
💡 每格数字 = 该场景下 4 条测试用例(简单 + 困难)在该维度的评分均值(1-5 分制)。 底部青色水位越高 = 该维度在此场景中权重越高,得分越"值钱"。

📊 场景维度分解

Plotly

📋 场景用例下钻

4 条用例

📡 多模型维度对比

4 模型 × 10 维度

📋 测试用例明细

24 条

🧠 智能洞察

Auto-generated

📺 视频对比