登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
每日签到
每天签到奖励2圆-6圆
发帖说明
VIP申请
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
VIP申请
VIP网盘
网盘
联系我们
每日签到
道具
勋章
任务
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
业界
›
探秘Transformer系列之(17)--- RoPE
探秘Transformer系列之(17)--- RoPE
[ 复制链接 ]
羡渥蛛
2025-6-3 14:44:28
探秘Transformer系列之(17)--- RoPE
目录
探秘Transformer系列之(17)--- RoPE
文章总表
0x00 概述
0x01 总体思路
1.1 注意力机制回顾
1.2 思路分析
1.3 结果展示
1.4 问题
0x02 原理推导
2.1 f()函数
2.2 目标
2.3 推导
调整视角
从二维向量到复数
从复数到极坐标
下一步思路
引入绝对位置信息
旋转矩阵
绝对位置编码
找到相对位置信息
找到交互
找到内积
把位置信息融入内积
小结
2.4 正式定义
f()引入绝对信息
g()函数验证相对信息
右面等式
左边等式
高维度
2.5 总结
0x03 性质
3.1 相关性
3.2 周期性
3.3 \(\beta\)进制
3.4 对称性
3.5 频域
3.6 高频低频
3.7 远程衰减
表现
论证
基数
平滑性
3.8 外推
0x04 实现
4.1 基础Torch知识
4.2 在Transformer中的位置
4.3 llama3
总体
准备旋转矩阵
实现
调用
4.4 rotate_half
GPT-J sytle
GPT-NeoX style
0xFF 参考
文章总表
全部文章列表在这里 探秘Transformer系列之文章列表,后续每发一篇文章,会修改这里。
0x00 概述
RoPE编码来自苏神的工作Roformer, 它是目前LLM中广受欢迎使用的PE编码方式之一。
Transformer论文使用了Sinusoidal位置编码,其是加性编码,即词嵌入与编码位置相加。每个位置的嵌入向量是固定的,不考虑其与其他位置的关系。Sinusoidal位置编码希望引入相对位置关系(任意位置的位置编码都可以表达为一个已知位置的位置编码的关于距离的线性组合),但不是很成功,模型只能在一定程度上感知相对位置。位置编码常见的改进思路是以三角式位置编码公式为基础,调整自注意力计算偏置。而RoPE抛弃了位置编码常见的改进思路,即以三角式位置编码公式为基础,通过旋转矩阵、复数乘法、欧拉公式等技巧,既能以自注意力矩阵偏置的形式,反映两个token的相对位置信息,又能拆解到特征序列上,通过直接编码token的绝对位置实现,兼顾绝对位置编码和相对位置编码的优势。
RoPE没有修改Attention的结构,反而像绝对位置编码一样在输入层做文章,对输入向量直接进行改造,即对两个输入token形成的Query和Key向量做一个旋转变换,使得变换后的Query和Key带有位置信息,进一步使得Attention的内积操作不需要做任何更改就能自动感知到相对位置信息。换句话说,RoPR的出发点和策略是相对位置编码思想,但是实现方式却用的是绝对位置编码。
0x01 总体思路
我们首先看看对于三角函数编码的修改思路或者痛点,具有两点。
<ul>
在前面章节的分析中,我们已经知道attention层的计算( \(
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
探秘
Transformer
系列
RoPE
相关帖子
解密prompt系列58. MCP - 工具演变 & MCP基础
【Java 温故而知新系列】基础知识-06 深入理解String类
.NET 10 新增功能系列文章5——C# 14 中的新增功能
【模型压缩系列-1】一篇文章带你全面了解模型量化(Data Quantization )——全局篇
OMNET++系列问题(二)---如何解决 OMNeT++中的“Class _XXX_ not found”错误
Senparc.AI 系列教程(二):配置大模型,开始开发应用
高通手机跑AI系列之——人像与背景分割
C#零基础入门系列(八)——数组
解密prompt系列60. Agent实战:从0搭建Jupter数据分析智能体
Transformer通俗讲解(大白话版)
vip免费申请,1年只需15美金$
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
业界
解密prompt系列58. MCP - 工具演变 & MCP基础
0
522
裒噎
2025-08-06
安全
【Java 温故而知新系列】基础知识-06 深入理解String类
0
701
乱蚣
2025-08-06
业界
.NET 10 新增功能系列文章5——C# 14 中的新增功能
0
754
扈怀易
2025-08-07
业界
【模型压缩系列-1】一篇文章带你全面了解模型量化(Data Quantization )——全局篇
0
848
神泱
2025-08-07
安全
OMNET++系列问题(二)---如何解决 OMNeT++中的“Class _XXX_ not found”错误
0
595
浦乐
2025-08-07
业界
Senparc.AI 系列教程(二):配置大模型,开始开发应用
0
1011
田雅宁
2025-08-21
安全
高通手机跑AI系列之——人像与背景分割
0
250
明思义
2025-08-28
安全
C#零基础入门系列(八)——数组
0
89
祝安芙
2025-09-05
业界
解密prompt系列60. Agent实战:从0搭建Jupter数据分析智能体
0
370
赊朗爆
2025-09-08
科技
Transformer通俗讲解(大白话版)
0
209
副我
2025-09-10
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
羡渥蛛
2025-6-3 14:44:28
关注
0
粉丝关注
19
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
敖可
9984
杭环
9988
凶契帽
9988
4
氛疵
9988
5
黎瑞芝
9988
6
猷咎
9986
7
里豳朝
9986
8
肿圬后
9986
9
蝓俟佐
9984
10
虽裘侪
9984
查看更多