登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
1
2
/ 2 页
下一页
返回列表
首页
›
业界区
›
业界
›
探秘Transformer系列之(27)--- MQA & GQA
探秘Transformer系列之(27)--- MQA & GQA
[ 复制链接 ]
寨亳
2025-6-2 21:44:52
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
探秘Transformer系列之(27)--- MQA & GQA
目录
探秘Transformer系列之(27)--- MQA & GQA
0x00 概述
0x01 MHA
1.1 概念
1.2 实现
1.2.1 哈佛
1.2.2 llm-foundry
1.3 资源占用
0x02 MQA
2.1 概念
2.2 实现
1.2.1 精简版
1.2.2 完整版
2.3 效果
2.3.1 内存
2.3.2 速度
2.3.3 表征能力
2.3.3 通信
0x03 GQA
3.1 概念
3.2 架构比对
3.3 实现
3.3.1 精简版
3.3.2 完整版
3.4 效果
3.4.1 内存
3.4.2 速度
3.4.3 表征能力
3.5 转换
3.5.1 平均池化
3.5.2 基于掩码
网络转换
找到更好的分组方法
剪枝训练
3.6 优化
0xFF 参考
0x00 概述
在前文“优化KV Cache"中我们提到过,在”减少注意力头的数量“这个维度上,目前主要的相关工作有 MQA和GQA。MQA 和 GQA 是在缓存多少数量KV的思路上进行优化:直觉是如果缓存的KV个数少一些,显存就占用少一些,大模型能力的降低可以通过进一步的训练或者增加FFN/GLU的规模来弥补。
因为MQA和GQA是基于MHA进行改进,所以我们用下图展示了三者的区别。可以看到,通过缩减注意力头数目,MQA/GQA会降低KV Cache存储,让不同的注意力头或者同一组的注意力头共享一个K和V的集合,因为只单独保留了一份(或者几份)查询参数。因此K和V的矩阵仅有一份(或者几份),这大幅度减少了显存占用,使其更高效。另外,传统的基于MHA的Attention算子过于卡访存带宽,MQA和GQA,乃至后续的MLA都可以提计算访存比,这样也是对性能的极大提升。
注:
全部文章列表在这里,估计最终在35篇左右,后续每发一篇文章,会修改此文章列表。cnblogs 探秘Transformer系列之文章列表
本系列是对论文、博客和代码的学习和解读,借鉴了很多网上朋友的文章,在此表示感谢,并且会在参考中列出。因为本系列参考文章太多,可能有漏给出处的现象。如果原作者发现,还请指出,我在参考文献中进行增补。
0x01 MHA
因为MQA,GQA是基于MHA进行修改,所以我们有必要先回顾下MHA。
1.1 概念
MHA(即多头注意力机制)在2017年就随着Transformer原始论文"Attention Is All You Need"一起提出,其主要工作是:把原来一个注意力计算拆成多个小份的注意力头,即把Q、K、V分别拆分成多份,每个注意力头使用独立的Q、K、V进行计算。而多个头可以并行计算,分别得出结果,最后再合回原来的维度。
我们通过下图来看看MHA的流程,这里设
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
探秘
Transformer
系列
MQA
amp
相关帖子
端侧大模型实践 - 生成预测模型&模型轻量化&端侧部署
端侧大模型实践 - 生成预测模型&模型轻量化&端侧部署
端侧大模型实践 - 生成预测模型&模型轻量化&端侧部署
端侧大模型实践 - 生成预测模型&模型轻量化&端侧部署
端侧大模型实践 - 生成预测模型&模型轻量化&端侧部署
端侧大模型实践 - 生成预测模型&模型轻量化&端侧部署
Lab4-Lab: traps && MIT6.1810操作系统工程【持续更新】 _
LangGraph4j 学习系列(1)-顺序工作流
Windows11 & Ubuntu22.04 双系统
.NET 10 & C# 14 New Features 新增功能介绍-扩展成员Extension Members
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
安全
端侧大模型实践 - 生成预测模型&模型轻量化&端侧部署
2
491
敖可
2026-02-12
安全
端侧大模型实践 - 生成预测模型&模型轻量化&端侧部署
2
171
沦嘻亟
2026-02-12
安全
端侧大模型实践 - 生成预测模型&模型轻量化&端侧部署
0
983
驼娑
2026-02-12
安全
端侧大模型实践 - 生成预测模型&模型轻量化&端侧部署
1
770
捷荀讷
2026-02-12
安全
端侧大模型实践 - 生成预测模型&模型轻量化&端侧部署
2
138
梨恐
2026-02-12
安全
端侧大模型实践 - 生成预测模型&模型轻量化&端侧部署
1
487
剽达崖
2026-02-12
安全
Lab4-Lab: traps && MIT6.1810操作系统工程【持续更新】 _
2
158
裸历
2026-02-13
安全
LangGraph4j 学习系列(1)-顺序工作流
2
454
夔新梅
2026-02-16
业界
Windows11 & Ubuntu22.04 双系统
2
10
孔季雅
2026-02-17
业界
.NET 10 & C# 14 New Features 新增功能介绍-扩展成员Extension Members
1
245
郜庄静
2026-02-18
回复
(25)
纪晴丽
2025-10-10 01:21:31
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
不错,里面软件多更新就更好了
瞧蛀
2025-11-14 00:50:40
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
很好很强大 我过来先占个楼 待编辑
户烫擞
2025-12-6 20:46:40
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
前排留名,哈哈哈
盛天欣
2025-12-7 10:29:54
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
过来提前占个楼
缣移双
2025-12-20 17:41:39
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
热心回复!
呼延冰枫
2025-12-21 00:36:00
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
谢谢分享,试用一下
宿遘稠
2025-12-28 07:23:16
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
新版吗?好像是停更了吧。
兜蛇
2026-1-5 06:28:14
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
分享、互助 让互联网精神温暖你我
觞刈
2026-1-14 15:21:35
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
感谢分享,学习下。
铜坠匍
2026-1-14 15:36:44
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
热心回复!
喳谍
2026-1-15 10:31:47
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
感谢发布原创作品,程序园因你更精彩
赴忽
2026-1-19 04:25:11
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
感谢分享
訾懵
2026-1-19 11:35:27
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
前排留名,哈哈哈
劳暄美
2026-1-26 11:14:22
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
谢谢分享,辛苦了
雌鲳签
2026-1-27 07:31:08
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
感谢分享,学习下。
师佳思
2026-2-1 11:07:15
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
热心回复!
辉伫
2026-2-3 06:35:10
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
yyds。多谢分享
马璞玉
2026-2-5 08:10:16
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
收藏一下 不知道什么时候能用到
蔓好
2026-2-7 23:41:29
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
前排留名,哈哈哈
下一页 »
1
2
/ 2 页
下一页
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
寨亳
2026-2-7 23:41:29
关注
0
粉丝关注
23
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
3934307807
991124
anyue1937
9994892
kk14977
6845359
4
xiangqian
638210
5
宋子
9898
6
韶又彤
9918
7
闰咄阅
9993
8
刎唇
9995
9
蓬森莉
9883
10
遗憩
10006
查看更多
今日好文热榜
317
OpenClaw多Agent协作踩坑实录:从翻车到跑
712
【节点】[MainLightShadow节点]原理解析与
630
模拟退火算法
899
Claude Code 的 Skills 可以在 Trae IDE 中
254
付费 AI 用户和免费用户之间,究竟差了什么
699
手把手教你使用vscode开发stm32!
1003
“老东西,你懦弱了”——关于Vibe Coding
926
告别Hyprland/Niri键鼠共享难题:Pynergy
752
解惑|公司员工健身房需要哪些器材?上海皓
518
凸优化数学基础笔记(六):凸集、凸函数与
389
SeeDance2.0提示词之跳舞女孩
11
SeeDance2.0提示词之跳舞女孩
683
国内零门槛首个免费 开源 7×24小时帮
572
[拆解LangChain执行引擎]非常规Pending Wri
69
AI开发-python-milvus向量数据库(2-8 -mil
80
[LKD/Linux 内核] 关于对 current_thread_i
9
[LKD/Linux 内核] 关于对 current_thread_i
7
[LKD/Linux 内核] 关于对 current_thread_i
7
9、PipedInputStream和PipedOutputStream的