LLM-Depth Evaluation
Heatmap Matrix · 多模型多维深潜分析 — ZZSH Arister
🔥 维度 × 场景 热力图
点击联动
💡 每格数字 = 该场景下 4 条测试用例(简单 + 困难)在该维度的评分均值(1-5 分制)。
底部青色水位越高 = 该维度在此场景中权重越高,得分越"值钱"。
hue = ((score - 1) / 4) × 120°diff = scoreA − scoreBintensity = min(1, |diff| / 3) × 0.7+1.23 或 −0.87(带符号差值)avg = Σ scores / N(N=有效模型数,剔除null)hue = ((avg-1)/4)×120°
| 数据结构 | OLAP Cube 多维立方体 事实表 + 维度表 → 交叉聚合 |
| 可视化 | 交叉表热力图(Cross-tab Heatmap) 行列二维 + 颜色编码第三维度 |
| 交互范式 | 切片 / 切块 / 下钻 Slice · Dice · Drill-down |
| 代表工具 | Tableau · Power BI · Cognos · MicroStrategy |
| 核心理念 | "Overview first, zoom and filter, then details-on-demand" — Shneiderman 「先概览,再缩放过滤,最后按需查看细节」 |
| 数据结构 | 3 维 Cube:模型 × 场景 × 评测维度 事实值 = AVG(4条用例评分),1-5分 |
| 可视化 | 10×6 热力矩阵 行=维度 · 列=场景 · 颜色=分数 |
| 交互范式 | Deep / Dual / All 三种模式 点击格子 → 下钻 4 条用例 + 视频 |
| 颜色规则 | HSL(hue,65%,48%) hue = ((score-1)/4)×120° |
| 分析对象 | 从「华北区 Q3 营收」 变成了「ViduQ3 画质得分」 |
传统 BI 用例(Tableau / Power BI): 本页用例: ┌──────────────────────────────┐ ┌──────────────────────────────┐ │ 区域\产品 手机 电脑 │ │ 维度\场景 漫剧 短剧 │ │ 华北 ████ ██ │ │ 画质 ████ ██ │ │ 华东 ██ ████ │ │ 连贯性 ██ ████ │ │ 华南 █████ █ │ │ 创意 █████ █ │ └──────────────────────────────┘ └──────────────────────────────┘ 颜色深浅 = 销售额高低 颜色红绿 = 评分高低 (1-5 分) 聚合函数 = SUM / AVG 聚合函数 = AVG (4 条用例) 钻取路径 = 年 → 季 → 月 → 日 钻取路径 = 模型 → 场景 → 维度 → 用例
Deep = 绝对值评估(不问对比,只看自己几分)Dual = SBS 并排对比(逐格减法,红蓝定胜负)All = AVG 均值聚合(行业基线,悬浮徽章部分弥补方差)GSB = 未实现(需选一个模型当基准,其他模型逐格自动判定 Good / Same / Bad)Heatmap Matrix · 多模型多维深潜分析 — ZZSH Arister