2019 年 2月随笔档案 - JieLongZ

word2vec是如何工作的？

摘要：如何有效的将文本向量化是自然语言处理（Natural Language Processing: NLP）领域非常重要的一个研究方向。传统的文本向量化可以用独热编码（one-hot encoding）、词袋模型（bag-of-words）和TF-IDF等方式，但是以上得到的文本向量可能维度都很高，在一阅读全文

posted @ 2019-02-21 17:00 JieLongZ 阅读(1055) 评论(0) 推荐(1) 编辑

TF-IDF与主题模型 - NLP学习（3-2）

摘要：分词（Tokenization） - NLP学习（1） N-grams模型、停顿词（stopwords）和标准化处理 - NLP学习（2）文本向量化及词袋模型 - NLP学习（3-1）在上一篇博文中，简单地阐述了如何将文本向量化及词袋模型的。文本向量化是为了将文本转换成机器学习算法可以直接处理的阅读全文

posted @ 2019-02-14 16:48 JieLongZ 阅读(1445) 评论(0) 推荐(1) 编辑

基于规则的中文分词 - NLP中文篇

摘要：之前在其他博客文章有提到如何对英文进行分词，也说后续会增加解释我们中文是如何分词的，我们都知道英文或者其他国家或者地区一些语言文字是词与词之间有空格（分隔符），这样子分词处理起来其实是要相对容易很多，但是像中文处理起来就没有那么容易，因为中文字与字之间，词与词之间都是紧密连接在一起的，所以第一件事需阅读全文

posted @ 2019-02-12 23:39 JieLongZ 阅读(3143) 评论(0) 推荐(0) 编辑

文本向量化及词袋模型 - NLP学习（3-1）

摘要：分词（Tokenization） - NLP学习（1） N-grams模型、停顿词（stopwords）和标准化处理 - NLP学习（2）之前我们都了解了如何对文本进行处理：（1）如用NLTK文本处理库将文本的句子成分分成了N-Gram模型，与此同时引入了正则表达式去除一些多余的句子成分；（2）将阅读全文

posted @ 2019-02-11 15:57 JieLongZ 阅读(3058) 评论(1) 推荐(1) 编辑

持续学习的JielongZ

不积跬步无以至千里

02 2019 档案

公告