随笔分类 -  0083. 自然语言处理

摘要:在文本挖掘预处理之向量化与Hash Trick中我们讲到在文本挖掘的预处理中,向量化之后一般都伴随着TF-IDF的处理,那么什么是TF-IDF,为什么一般我们要加这一步预处理呢?这里就对TF-IDF的原理做一个总结。 1. 文本向量化特征的不足 在将文本分词并向量化后,我们可以得到词汇表中每个词在各 阅读全文
posted @ 2017-04-11 14:58 刘建平Pinard 阅读(77098) 评论(39) 推荐(20) 编辑
摘要:在文本挖掘的分词原理中,我们讲到了文本挖掘的预处理的关键一步:“分词”,而在做了分词后,如果我们是做文本分类聚类,则后面关键的特征预处理步骤有向量化或向量化的特例Hash Trick,本文我们就对向量化和特例Hash Trick预处理方法做一个总结。 1. 词袋模型 在讲向量化与Hash Trick 阅读全文
posted @ 2017-04-10 14:56 刘建平Pinard 阅读(27816) 评论(36) 推荐(8) 编辑
摘要:在做文本挖掘的时候,首先要做的预处理就是分词。英文单词天然有空格隔开容易按照空格分词,但是也有时候需要把多个单词做为一个分词,比如一些名词如“New York”,需要做为一个词看待。而中文由于没有空格,分词就是一个需要专门去解决的问题了。无论是英文还是中文,分词的原理都是类似的,本文就对文本挖掘时的 阅读全文
posted @ 2017-04-07 14:49 刘建平Pinard 阅读(37408) 评论(65) 推荐(16) 编辑