摘要: 一个暑假回来到了该找工作的紧张时期了。不过项目还是要继续做嘛,╮(╯_╰)╭,放假前用python爬到了一些网页,也尝试着分了词。现在进入文本挖掘阶段吧。R在数据挖掘和机器学习方面好似很方便,安了试试看。界面跟Matlab有几分相似呢……o(≧v≦)o~~-------2013.9.13----python分词、词频统计、寻找公共词--R还是有点偏向学术计算的语言了,最后还是换上半生不熟的python来做。之前爬到了网页数据(见上片文章【网络爬虫】最后8.3的记录),而且尝试了分词。现在完善了以下处理:1、对所有爬到是网页数据进行分词(没有设立自定义词典)如果设置自定义词典,那么分词效果会更好 阅读全文
posted @ 2013-09-04 21:04 elar 阅读(13509) 评论(0) 推荐(2) 编辑