会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
又见阿郎
博客园
首页
新随笔
联系
订阅
管理
随笔 - 261
文章 - 0
评论 - 85
阅读 -
34万
2024年6月12日
聊聊GLM-4-9B开源模型的微调loss计算
摘要: 概述 Github官方地址:GLM-4 网上已经有很多关于微调的文章,介绍各种方式下的使用,这里不会赘述。我个人比较关心的是微调时的loss计算逻辑,这点在很多的文章都不会有相关的描述,因为大多数人都是关心如何使用之类的应用层,而不是其具体的底层逻辑,当然咱也说不清太底层的计算。 可了解其它loss
阅读全文
posted @ 2024-06-12 10:21 又见阿郎
阅读(656)
评论(0)
推荐(1)
编辑
公告
昵称:
又见阿郎
园龄:
8年8个月
粉丝:
63
关注:
63
+加关注
<
2025年2月
>
日
一
二
三
四
五
六
26
27
28
29
30
31
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
1
2
3
4
5
6
7
8
搜索
常用链接
我的随笔
我的评论
我的参与
最新评论
我的标签
我的标签
abp
(14)
C#
(13)
Python
(12)
Doris
(10)
ChatGLM
(9)
.net core
(9)
Flink
(8)
DI
(8)
redis
(6)
线程安全
(6)
更多
随笔档案
2025年2月(1)
2024年6月(1)
2024年4月(3)
2024年3月(7)
2024年1月(6)
2023年12月(16)
2023年11月(14)
2023年10月(5)
2023年9月(7)
2023年8月(5)
2023年7月(4)
2023年6月(10)
2023年5月(17)
2023年4月(2)
2022年1月(1)
2021年2月(1)
2021年1月(1)
2020年12月(4)
2020年10月(1)
2020年8月(2)
2020年5月(1)
2020年4月(2)
2020年3月(1)
2019年12月(7)
2019年11月(1)
2019年10月(1)
2019年7月(4)
2019年6月(4)
2019年5月(2)
2019年4月(3)
2019年3月(1)
2019年2月(2)
2019年1月(3)
2018年12月(1)
2018年11月(1)
2018年10月(1)
2018年9月(1)
2018年8月(4)
2018年7月(15)
2018年6月(5)
2018年5月(8)
2018年4月(14)
2018年3月(5)
2018年2月(4)
2018年1月(8)
2017年12月(7)
2017年11月(7)
2017年10月(9)
2017年9月(9)
2017年8月(3)
2017年7月(8)
2017年6月(8)
2017年5月(2)
更多
阅读排行榜
1. python snownlp情感分析简易demo(17817)
2. C# 中的线程安全集合类(15380)
3. 我应该跟libuv说声对不起,我错怪了libuv(转)(15355)
4. python select.select模块通信全过程详解(14293)
5. windows下Python 3.x图形图像处理库PIL的安装(14015)
评论排行榜
1. 我应该跟libuv说声对不起,我错怪了libuv(转)(5)
2. asp.net core Session的测试使用心得及注意事项(3)
3. asp.net core 上使用redis探索(3)--redis示例demo(3)
4. ASP.NET MVC不可或缺的部分——DI及其本质工作分析(3)
5. asp.net 分布式探讨之Session共享问题(3)
推荐排行榜
1. asp.net 下的中文分词检索工具 - jieba.net(4)
2. 我应该跟libuv说声对不起,我错怪了libuv(转)(4)
3. 聊聊卷积神经网络CNN(3)
4. 聊聊分布式 SQL 数据库Doris(七)(3)
5. 一个你不能错过的第三方.net集合库(3)
最新评论
1. Re:聊聊ChatGLM3多用户并发API调用的问题
一般来说,神经网络模型本身是顺序执行的,特别是当前的大语言模型,需要通过多轮的token预测,在一个会话中模型的前向传播会频繁的处理输入生成输出,理论上确实存在并行的情况,也就是说每一层在处理完毕后确...
--a1010
2. Re:聊聊大模型"打字机"效果的背后技术——SSE
我记得微软的 New Bing 是用 WebSocket 来实现的(毕竟用的 SignalR)
--Baka632
3. Re:聊聊大模型微调训练全流程的思考
图挂了
--SongShiYan
4. Re:聊聊大模型微调训练全流程的思考
图片 全都不能看
--winds_随风
5. Re:聊聊ChatGLM-6B医疗数据微调
看不到图片
--一只小帕吉
点击右上角即可分享