随笔档案「2017年4月」 - 刘建平Pinard

英文文本挖掘预处理流程总结

摘要：在中文文本挖掘预处理流程总结中，我们总结了中文文本挖掘的预处理流程，这里我们再对英文文本挖掘的预处理流程做一个总结。 1. 英文文本挖掘预处理特点英文文本的预处理方法和中文的有部分区别。首先，英文文本挖掘预处理一般可以不做分词（特殊需求除外），而中文预处理分词是必不可少的一步。第二点，大部分英文文阅读全文

posted @ 2017-04-24 15:12 刘建平Pinard 阅读(27787) 评论(16) 推荐(9)

中文文本挖掘预处理流程总结

摘要：在对文本做数据分析时，我们一大半的时间都会花在文本预处理上，而中文和英文的预处理流程稍有不同，本文就对中文文本挖掘的预处理流程做一个总结。 1. 中文文本挖掘预处理特点首先我们看看中文文本挖掘预处理和英文文本挖掘预处理相比的一些特殊点。首先，中文文本是没有像英文的单词空格那样隔开的，因此不能直接阅读全文

posted @ 2017-04-21 16:58 刘建平Pinard 阅读(59260) 评论(76) 推荐(20)

文本挖掘预处理之TF-IDF

摘要：在文本挖掘预处理之向量化与Hash Trick中我们讲到在文本挖掘的预处理中，向量化之后一般都伴随着TF-IDF的处理，那么什么是TF-IDF，为什么一般我们要加这一步预处理呢？这里就对TF-IDF的原理做一个总结。 1. 文本向量化特征的不足在将文本分词并向量化后，我们可以得到词汇表中每个词在各阅读全文

posted @ 2017-04-11 14:58 刘建平Pinard 阅读(77866) 评论(39) 推荐(20)

文本挖掘预处理之向量化与Hash Trick

摘要：在文本挖掘的分词原理中，我们讲到了文本挖掘的预处理的关键一步：“分词”，而在做了分词后，如果我们是做文本分类聚类，则后面关键的特征预处理步骤有向量化或向量化的特例Hash Trick，本文我们就对向量化和特例Hash Trick预处理方法做一个总结。 1. 词袋模型在讲向量化与Hash Trick 阅读全文

posted @ 2017-04-10 14:56 刘建平Pinard 阅读(28345) 评论(36) 推荐(8)

文本挖掘的分词原理

摘要：在做文本挖掘的时候，首先要做的预处理就是分词。英文单词天然有空格隔开容易按照空格分词，但是也有时候需要把多个单词做为一个分词，比如一些名词如“New York”，需要做为一个词看待。而中文由于没有空格，分词就是一个需要专门去解决的问题了。无论是英文还是中文，分词的原理都是类似的，本文就对文本挖掘时的阅读全文

posted @ 2017-04-07 14:49 刘建平Pinard 阅读(38051) 评论(65) 推荐(17)

刘建平Pinard

十五年码农，对数学统计学，数据挖掘，机器学习，大数据平台，大数据平台应用开发，大数据可视化感兴趣。

04 2017 档案

公告