by Wsnhg
(5)LMDeploy 大模型量化部署实践_哔哩哔哩_bilibili
- 大模型特点
- 内存开销大
- 参数两大
- attention的KV带来巨大内存开销
- 动态shape
- 相对CV模型结构简单
- 大模型部署挑战
- 设备
- 推理
- 加速token生成速度
- 解决动态shape,使得推理不间断
- 有效管理和利用内存
- 服务
- 大模型部署方案
- 技术点
- 模型并行
- 低比特量化
- PageAttention
- Transformer计算和访存优化
- Continuous Batch
- 方案
- huggingface transformers
- 专门的推理加速框架
- LMDeploy: LLM在Nv设备上部署的全流程解决方案
- 量化 - 降低显存消耗
- 计算密集:大部分时间消耗在数值计算
- 访存密集:大部分时间消耗在数据读取上
- LLM是典型访存密集任务:推理时大部分时间消耗在逐Token生成阶段
- LMDeploy使用AWQ算法做weight only量化
- 推理引擎
- 持续批处理
- 请求可以及时加入batch中推理
- batch中已经完成成都请求及时退出
- 有状态的推理
- 对话token被缓存在推理侧
- 用户侧请求无需带上历史对话记录
- Blocked k/v cache
- Attention支持不连续的k/v
- block (Paged Attention)
- 高性能cuda kernel
- Flash Attention 2
- Split-K decoding
- 高效的w4a16,kv8反量化kernel