找回密码
 会员注册
查看: 13|回复: 0

深入理解Transformer技术原理

[复制链接]

2

主题

0

回帖

7

积分

新手上路

积分
7
发表于 2024-10-8 15:25:35 | 显示全部楼层 |阅读模式
目录一、什么是注意力机制二、Transformer架构设计三、?理解Transformer中的Token????1. 将文本拆分成token????????1.1?基于单词的分词器????????1.2?基于字符的标记器????????1.3?基于子词的标记器????2. 向量、矩阵、张量????????2.1?向量(Vector)????????2.2?矩阵(Matrix)????????2.3?张量(Tensor)????3.?将token转换成向量????4.?将向量转换成嵌入四、理解Transformer的编解码器五、理解Token在编码器中的流转????1.?对Token进行位置编码????2.?自注意力机制????????2.1?计算注意力值????????2.2?多头注意力机制????3. 残差网络????4. 前匮网络六、理解Token在解码器中的流转????1.?Masked多头注意力机制????2.?计算注意力值????3.?线性分类器&Softmax????4.?编解码器的协同工作七、Transformer-XL怎样提升上下文长度八、Transformer相关应用分享????1.?使用BERT做掩词填充????2.?使用BART做文本摘要????3.?使用DistilBERT做问答????4.?使用T5做文本翻译????5.?使用GPT-2写小说九、参考文献
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

QQ|手机版|心飞设计-版权所有:微度网络信息技术服务中心 ( 鲁ICP备17032091号-12 )|网站地图

GMT+8, 2025-1-9 20:00 , Processed in 1.275446 second(s), 25 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表