LLM-Depth Evaluation

📖

维度热力矩阵 · 原理说明

三种模式的设计逻辑与颜色规则

🔍

单模型深挖

深入一个模型，看它在每个维度和场景下的绝对表现

🎨 颜色 = 分数映射

hue = ((score - 1) / 4) × 120°

1分红 3分黄 5分绿

红=差 → 黄=中 → 绿=好

🔢 显示值

格内数字 = 该模型在该维度+场景下的 4条用例均值（1-5分）

⚔️

双模型对比

逐格做减法，用红蓝冷暖色直观表达优劣方向

🎨 颜色 = 差值驱动

diff = score_A − score_B
intensity = min(1, |diff| / 3) × 0.7

A更强(+3) 打平(0) B更强(−3)

红色优势=模型A领先 · 蓝色优势=模型B领先
差距＜3分渐进加深，≥3分达满饱和度

🔢 显示值

格内数字 = +1.23 或 −0.87（带符号差值）
悬浮可看两模型原始分数

📊

全模型对比

取所有模型分数的算术平均，代表行业基线水平

🎨 颜色 = 均值映射

avg = Σ scores / N（N=有效模型数，剔除null）
配色规则同 Deep 模式：hue = ((avg-1)/4)×120°

红=行业短板 · 黄=行业平均 · 绿=行业领先

🔢 显示值

格内数字 = 所有模型在该格子的平均分
悬浮可看每个模型的独立分数徽章

📜

时代背书 · BI 血缘

OLAP Cube → 维度热力矩阵

BI 时代（1990s–）核心技术

数据结构	OLAP Cube 多维立方体事实表 + 维度表 → 交叉聚合
可视化	交叉表热力图（Cross-tab Heatmap）行列二维 + 颜色编码第三维度
交互范式	切片 / 切块 / 下钻 Slice · Dice · Drill-down
代表工具	Tableau · Power BI · Cognos · MicroStrategy
核心理念	"Overview first, zoom and filter, then details-on-demand" — Shneiderman 「先概览，再缩放过滤，最后按需查看细节」

本页映射（同样的范式）

数据结构	3 维 Cube：模型 × 场景 × 评测维度事实值 = AVG(4条用例评分)，1-5分
可视化	10×6 热力矩阵行=维度 · 列=场景 · 颜色=分数
交互范式	Deep / Dual / All 三种模式点击格子 → 下钻 4 条用例 + 视频
颜色规则	HSL(hue,65%,48%) hue = ((score-1)/4)×120°
分析对象	从「华北区 Q3 营收」变成了「ViduQ3 画质得分」

📊 同一张交叉表热力图，换了分析对象

传统 BI 用例（Tableau / Power BI）：          本页用例：

┌──────────────────────────────┐        ┌──────────────────────────────┐
│ 区域\产品    手机     电脑    │        │ 维度\场景    漫剧     短剧    │
│ 华北         ████     ██     │        │ 画质         ████     ██     │
│ 华东         ██       ████   │        │ 连贯性       ██       ████   │
│ 华南         █████    █      │        │ 创意         █████    █      │
└──────────────────────────────┘        └──────────────────────────────┘

颜色深浅 = 销售额高低                    颜色红绿 = 评分高低 (1-5 分)
聚合函数 = SUM / AVG                     聚合函数 = AVG (4 条用例)
钻取路径 = 年 → 季 → 月 → 日              钻取路径 = 模型 → 场景 → 维度 → 用例

相同的 OLAP 数据结构、相同的交叉表热力图范式、相同的切片下钻交互——BI 思想在 AI 评测领域的自然下沉

🔬 三种聚合哲学：同一张表，不同的"怎么看"

AVG 均值聚合

"平均水平是多少？"

avg = (4.2+3.1+3.0+3.3) / 4 = 3.40 → 一个数字概括全局 → 信息压缩到极致

✅ 瞬间理解 · N模型天然扩展

❌ 完全抹掉方差：[5,5,1,1] 和 [3,3,3,3] 均值一样

→ 对应 All 模式（悬浮徽章部分弥补方差）

SBS 并排减法

"A 比 B 好多少？"

diff = score[A] - score[B] → 逐格做减法 → 红蓝冷暖色定胜负 → 每一格都有明确方向

✅ 决策友好 · 胜负分明

❌ 只能比 2 个 · 不知道绝对值

→ 对应 Dual 模式

GSB 基准定标

"谁达标？谁不达标？"

选一个基准模型（Benchmark）其他模型和它比： diff>+0.5 → Good 🟢 |diff|≤0.5 → Same 🟡 diff<−0.5 → Bad 🔴 → 离散三档，放弃连续值

✅ 直觉 · 天然N模型 · 及格线清晰

❌ 需要一个「基准」锚定 · 粗粒度

→ 本页尚未实现（未来可加）

📋 本页矩阵覆盖情况：
Deep = 绝对值评估（不问对比，只看自己几分）
Dual = SBS 并排对比（逐格减法，红蓝定胜负）
All = AVG 均值聚合（行业基线，悬浮徽章部分弥补方差）
GSB = 未实现（需选一个模型当基准，其他模型逐格自动判定 Good / Same / Bad）
同一张交叉表，聚合函数不同 → 回答的问题完全不同。AVG 告诉你"大盘"，SBS 告诉你"胜负"，GSB 告诉你"及格线"。

💡 一句话：BI 时代的多维分析引擎装进一个网页——事实表的度量值从「Q3 华北区营收」变成了「ViduQ3 在 AI 漫剧场景下的画质得分」。评测本身就是一个数据分析问题。

维度热力矩阵 · 原理说明

时代背书 · BI 血缘

🔥 维度 × 场景热力图

📊 场景维度分解

📋 场景用例下钻

📡 多模型维度对比

📋 测试用例明细

🧠 智能洞察

维度热力矩阵 · 原理说明

时代背书 · BI 血缘

LLM-Depth Evaluation

🔥 维度 × 场景 热力图

📊 场景维度分解

📋 场景用例下钻

📡 多模型维度对比

📋 测试用例明细

🧠 智能洞察

📺 视频对比

🔥 维度 × 场景热力图