0083. 自然语言处理 - 随笔分类(第2页) - 刘建平Pinard

文本挖掘预处理之TF-IDF

摘要：在文本挖掘预处理之向量化与Hash Trick中我们讲到在文本挖掘的预处理中，向量化之后一般都伴随着TF-IDF的处理，那么什么是TF-IDF，为什么一般我们要加这一步预处理呢？这里就对TF-IDF的原理做一个总结。 1. 文本向量化特征的不足在将文本分词并向量化后，我们可以得到词汇表中每个词在各阅读全文

posted @ 2017-04-11 14:58 刘建平Pinard 阅读(77270) 评论(39) 推荐(20) 编辑

文本挖掘预处理之向量化与Hash Trick

摘要：在文本挖掘的分词原理中，我们讲到了文本挖掘的预处理的关键一步：“分词”，而在做了分词后，如果我们是做文本分类聚类，则后面关键的特征预处理步骤有向量化或向量化的特例Hash Trick，本文我们就对向量化和特例Hash Trick预处理方法做一个总结。 1. 词袋模型在讲向量化与Hash Trick 阅读全文

posted @ 2017-04-10 14:56 刘建平Pinard 阅读(27931) 评论(36) 推荐(8) 编辑

文本挖掘的分词原理

摘要：在做文本挖掘的时候，首先要做的预处理就是分词。英文单词天然有空格隔开容易按照空格分词，但是也有时候需要把多个单词做为一个分词，比如一些名词如“New York”，需要做为一个词看待。而中文由于没有空格，分词就是一个需要专门去解决的问题了。无论是英文还是中文，分词的原理都是类似的，本文就对文本挖掘时的阅读全文

posted @ 2017-04-07 14:49 刘建平Pinard 阅读(37556) 评论(65) 推荐(16) 编辑

刘建平Pinard

十五年码农，对数学统计学，数据挖掘，机器学习，大数据平台，大数据平台应用开发，大数据可视化感兴趣。

随笔分类 - 0083. 自然语言处理

公告