第六课笔记 | Notion

by Wsnhg

OpenCompass 大模型评测_哔哩哔哩_bilibili

关于模型评测的三个问题
- why
  - 模型选型依据
  - 指导模型能力提升方向
  - 真实应用场景效果评测
- what
  - 知识，推理，语言
  - 长文本，智能体，多轮对话
  - 情感，认知，价值观
- how
  - 自动化客观评测
  - 人机交互评测
  - 基于大模型的大模型评测
大模型评测领域的挑战
- 缺少高质量中文评测数据集
- 难以准确提取答案
- 能力维度不足
- 测试集混入训练集
- 测试标准各异
- 人工测试成本高昂