by Wsnhg
OpenCompass 大模型评测_哔哩哔哩_bilibili
关于模型评测的三个问题
why
模型选型依据
指导模型能力提升方向
真实应用场景效果评测
what
知识,推理,语言
长文本,智能体,多轮对话
情感,认知,价值观
how
自动化客观评测
人机交互评测
基于大模型的大模型评测
大模型评测领域的挑战
缺少高质量中文评测数据集
难以准确提取答案
能力维度不足
测试集混入训练集
测试标准各异
人工测试成本高昂