第五课笔记 | Notion

by Wsnhg

(5)LMDeploy 大模型量化部署实践_哔哩哔哩_bilibili

大模型特点
- 内存开销大
  - 参数两大
  - attention的KV带来巨大内存开销
- 动态shape
  - 请求数不固定
  - token逐个生成，数量不定
- 相对CV模型结构简单
  - 大多是decoder-only
大模型部署挑战
- 设备
  - 存储问题
- 推理
  - 加速token生成速度
  - 解决动态shape，使得推理不间断
  - 有效管理和利用内存
- 服务
  - 提升整体吞吐量
  - 降低用户响应时间
大模型部署方案
- 技术点
  - 模型并行
  - 低比特量化
  - PageAttention
  - Transformer计算和访存优化
  - Continuous Batch
- 方案
  - huggingface transformers
  - 专门的推理加速框架
LMDeploy： LLM在Nv设备上部署的全流程解决方案
- 量化 - 降低显存消耗
  - 计算密集：大部分时间消耗在数值计算
  - 访存密集：大部分时间消耗在数据读取上
    - LLM是典型访存密集任务：推理时大部分时间消耗在逐Token生成阶段
  - LMDeploy使用AWQ算法做weight only量化
- 推理引擎
  - 持续批处理
    - 请求可以及时加入batch中推理
    - batch中已经完成成都请求及时退出
  - 有状态的推理
    - 对话token被缓存在推理侧
    - 用户侧请求无需带上历史对话记录
  - Blocked k/v cache
    - Attention支持不连续的k/v
    - block （Paged Attention）
  - 高性能cuda kernel
    - Flash Attention 2
    - Split-K decoding
    - 高效的w4a16，kv8反量化kernel