2024 年 8月 11 日随笔档案 - 海_纳百川

2024年8月11日

摘要：在自然语言处理中，tokenizer 是一个非常关键的组件，它将文本转化为模型可以理解的格式。这个过程通常包括以下几个步骤： 1. 文本标准化小写化：将所有文本转换为小写，以减少不同形式的单词（如 "Apple" 和 "apple"）被视为不同词的情况。去除标点符号：删除或替换标点符号，不过在某阅读全文

posted @ 2024-08-11 22:49 海_纳百川阅读(140) 评论(0) 推荐(0) 编辑

chinese-clip中的文本编码模型RoBERTa

摘要： RoBERTa（A Robustly Optimized BERT Approach）是 BERT 模型的一个改进版本，由 Facebook AI Research 团队在 2019 年提出。RoBERTa 在 BERT 的基础上，通过调整训练策略和数据量，大幅提高了模型的性能。 RoBERTa 的阅读全文

posted @ 2024-08-11 22:23 海_纳百川阅读(73) 评论(0) 推荐(0) 编辑

Word2Vec模型介绍

摘要： Word2Vec 是一种用于生成词向量的模型，由 Tomas Mikolov 等人在 2013 年提出。它通过从大量语料库中学习，捕捉词汇之间的语义关系。Word2Vec 主要包括两种模型架构： 1. CBOW（Continuous Bag of Words）模型 CBOW 模型通过上下文词来预测中阅读全文

posted @ 2024-08-11 21:48 海_纳百川阅读(95) 评论(0) 推荐(0) 编辑

Word2Vec模型之CBOW

摘要： CBOW（Continuous Bag of Words）是一种常用于自然语言处理的词嵌入模型，属于Word2Vec的一部分。CBOW模型的目标是通过上下文词来预测中心词。它通过在大规模语料库中学习词汇之间的共现关系，生成词向量表示。 CBOW模型的工作原理上下文窗口：CBOW模型的核心思想是利用阅读全文

posted @ 2024-08-11 21:42 海_纳百川阅读(149) 评论(0) 推荐(0) 编辑

不积跬步无以至千里

研究领域：深度学习，图像处理
联系方式：vladimirputin@foxmail.com
不必高看自己，也不必贬低自己

公告

不积跬步无以至千里

研究领域：深度学习，图像处理 联系方式：vladimirputin@foxmail.com 不必高看自己，也不必贬低自己

公告

研究领域：深度学习，图像处理
联系方式：vladimirputin@foxmail.com
不必高看自己，也不必贬低自己