Loading

摘要: Hugging Face 基本函数 tokenizer.tokenize(text):返回一个list,分词,将序列拆分为tokenizer词汇表中可用的tokens,这个中文是拆分为了单个的字,英文是subword tokenizer(text1,text2,..) 等效于 tokenizer.e 阅读全文
posted @ 2022-05-03 11:03 戴墨镜的长颈鹿 阅读(3176) 评论(0) 推荐(0) 编辑
摘要: 动机: 1⃣️ 正负样本的比例可能十分不均衡,1:1000,且大部分负样本都是easy example 2⃣️ 虽然easy 样本(正类的分数接近1,负类分数接近0的那些)本身的loss就很低,但由于数量众多,依旧对loss有很大的贡献。 目标:用一个合适的函数去度量难分类样本和易分类样本对总损失的 阅读全文
posted @ 2022-01-26 15:46 戴墨镜的长颈鹿 阅读(330) 评论(0) 推荐(0) 编辑
摘要: 清华大学-邓俊辉MOOC数据结构与算法部分笔记 阅读全文
posted @ 2021-03-10 19:32 戴墨镜的长颈鹿 阅读(290) 评论(0) 推荐(0) 编辑
摘要: 神经网络通常会包含很多次连续的 matrix 和 vector 之间的乘法,即 $a * x$ 。很多次连续的乘法后,会导致结果向量的值要么很大,要么被减小为0。我们可以通过除以了数值 $a$ (也称 scaling_factor,缩放因子)来将结果向量的值缩放到一个正常的范围 阅读全文
posted @ 2021-02-22 13:58 戴墨镜的长颈鹿 阅读(84) 评论(0) 推荐(0) 编辑
摘要: keras arc 阅读全文
posted @ 2021-01-31 18:34 戴墨镜的长颈鹿 阅读(69) 评论(0) 推荐(0) 编辑
摘要: NLP处理工具 阅读全文
posted @ 2021-01-15 21:17 戴墨镜的长颈鹿 阅读(116) 评论(0) 推荐(0) 编辑
摘要: 平常看见的,也许会帮助到未来的你 阅读全文
posted @ 2020-11-29 14:30 戴墨镜的长颈鹿 阅读(206) 评论(0) 推荐(0) 编辑
摘要: Bert 家族系列模型Q&A 阅读全文
posted @ 2020-11-23 21:30 戴墨镜的长颈鹿 阅读(308) 评论(0) 推荐(0) 编辑
摘要: 总有一些东西你需要明白,走出云中 阅读全文
posted @ 2020-11-21 21:12 戴墨镜的长颈鹿 阅读(113) 评论(0) 推荐(0) 编辑
摘要: 熟悉Bert之路 阅读全文
posted @ 2020-11-12 11:24 戴墨镜的长颈鹿 阅读(302) 评论(0) 推荐(0) 编辑