模型之 BERT & Transformer

模型之 BERT & Transformer

1. BERT

BERT: Bidirectional Encoder Representation from Transformers

论文地址[2019]：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

对应github代码：github-bert

BERT分为两个阶段：

Pre-training：利用无标记语料预训练模型
Fine-tuning: 使用预训练的模型，对已经标记的语料根据实际的任务进行训练

https://harmonyhu.com/2021/04/21/BERT/

2. Transformer

论文地址[2017]：Attention Is All You Need

核心运算：Attention(Q,K,V)=softmax(QKTdk√)V

描述：查询(Query)到键值(Key-Value)的映射

https://harmonyhu.com/2021/04/10/transformer/

posted @ 2024-12-31 15:08 michaelchengjl 阅读(8) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· 机器学习博客网站

· GEM5 相关资料

· BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

· 大模型FAQ

· BERT模型

阅读排行：
· 阿里最新开源QwQ-32B，效果媲美deepseek-r1满血版，部署成本又又又降低了！
· 单线程的Redis速度为什么快？
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决：字节Trae VS Cursor，谁才是开发者新宠？
· 展开说说关于C#中ORM框架的用法！

历史上的今天：
2019-12-31 Ubuntu18.04 解决umount: /mnt: device is busy

公告

昵称： michaelchengjl
园龄： 5年8个月
粉丝： 5
关注： 177

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔档案 (363)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:Ziya-LLaMA-13B 模型在GPU 上部署
utils.py为官方给的文件，那个页面打不开了，说是没有权限，
麻烦可以提供一下utils.py这个文件吗？
--小翔008
2. Re:CTest 简介
《ctest》
--xf_said
3. Re:python3 基本用法
no body see it ?
--michaelchengjl