当前位置:当前位置: 首页 >
为什么我还是无法理解transformer?
文章出处:网络 浏览次数:发表时间:2025-06-25 04:55:14
不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
同类文章排行
- 北京日报点名批评“苏超”过度娱乐化,它是否管的太宽了?为什么无良媒体不会被查封取缔?
- PostgreSQL 与 MySQL 相比,优势何在?
- 用PHP写了个小框架,怎么才能得到大佬们的指点?
- 怎么才能有尤雨溪一半强,该怎么学习?
- Firefox 浏览器是否还有可能浴火重生?
- 为什么微信不向telegram学习?
- 日常办公中,选24寸2K分辨率的显示器好还是27寸4K的好?
- 电脑有64G的物理内存(DDR5 5200),完全够用了,可以关闭系统的虚拟内存吗?
- 只是突然很好奇,已经造出了三艘航母,为何不能按照这样的模板,批量建造航母呢?
- 「人间尤物」型女主有多可爱?
最新资讯文章
- 哪款浏览器的综合性能最优?
- Redis最全面试题有哪些?
- Golang和J***a到底怎么选?
- php这个岗位在未来几年会消失吗,因为刚从事php有点焦虑?
- 导师给了1.4W要我给工作室买个主机,是整机还是自己配?
- 只是突然很好奇,已经造出了三艘航母,为何不能按照这样的模板,批量建造航母呢?
- 为什么欧美影视喜欢露点?
- 现实中的父女关系是怎样的?
- 为什么好多人不承认大众审美就是喜欢白皮?
- 那你说什么样的是美女?
- Go 语言几乎打了所有 Programming Language 学者的脸,然而它却成功了,为什么?
- 为什么用 electron 开发的桌面应用那么多?
- 自由泳是真的很累啊,怎么办?
- 为什么微软还没有倒闭?
- 怎么评价国内AI企业人肉背15块80TB硬盘,飞去马来西亚用英伟达训练数据,以规避美国禁令?
- 为什么一直唱衰的php语言反而日渐活跃?
- 下载的4k电影没有b站的4k清晰,是什么情况啊?
- 周杰伦为什么不告粥饼伦黑伦侵犯他的名誉权?
- 为什么感觉四***明很空洞?
- 每个月都还房贷的人会特别难受吗,是什么感觉呢?