当前位置:当前位置: 首页 >
为什么我还是无法理解transformer?
文章出处:网络 浏览次数:发表时间:2025-06-24 20:15:16
不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
同类文章排行
- 《潜伏》里的翠萍为什么不会被人怀疑是卧底?
- 央企的信创,是否有必要把 spring 替换成国产的 solon ?
- 北京日报点名批评“苏超”过度娱乐化,它是否管的太宽了?为什么无良媒体不会被查封取缔?
- 感觉鱼缸久了底下火山石里脏脏的,能彻底换水清理一遍不?
- 阿里网盘为什么没有动静了?
- 为什么抖音上的姑娘都那么好看,现实中我怎么一个也见不着?
- 大部分语言都用尖括号<>表示泛型,为什么golang要标新立异用中括号?
- 如何看待多地开展查摆年轻干部玩心重、混日子、说话随意、口大气粗等问题的行动?
- 如何看待 Rust 写的 PNG 解码器比 C 实现更快?
- NAS的盘是否需要一次性买齐?
最新资讯文章
- golang总体上有什么缺陷?
- 5 月 28 日 DeepSeek R1 模型完成小版本试升级并开源,具体有哪些提升?使用体验如何?
- 龙芯在.NET上帮微软做CPU指令集适配,为什么到国内.NET开发者这里成了维护龙芯.NET版本?
- Apple 为什么不封杀 Flutter 呢?
- 世界上哪款战斗机最好看?
- 微信头像会影响第一印象吗?
- 中国的歼35A可以吊打十架韩国的KF21吗?
- 湖北人和湖南人,二者有何差异?
- 为何同是象棋,国际象棋的棋子可以做的那么有设计感,而中国象棋的棋子形式似乎比较单一?
- 为什么欧美影视喜欢露点?
- 为什么买了Switch后,却发现它并没有那么好玩?
- 中国人口正经历前所未有大转折,如何看待中国人口负增长?应该怎样应对?
- 买到烂尾楼到底该有多绝望?
- 为什么觉得小米的系统越来越不行了?
- 作为一个服务器,node.js 是性能最高的吗?
- 使用 Go 语言开发大型 MMORPG 游戏服务器怎么样?
- 现在网上有很多卖别墅的,都只有200万,这个是真的吗?
- postgres集群的选择?
- 空输部队为全斗焕干了这么多脏活累活,士兵有没有什么优待?
- 现在学习Django做web开发过时了吗?