2017年4月6日

[爬虫]爬取搜狗的词库

摘要: 同学要做用户搜索词意图分析,要用到分词,让我给写一个爬虫爬取搜狗词库的脚本。以前爬取网页都使用正则匹配,想要用美丽的汤很久了,正好借此机会体验一下它的强大威力。脚本对搜狗词库主页进行一级爬取结果,然后对每一个分类进行二级页面爬取,然后获取该分类下的词库文件,保存到执行脚本同目录的1文件夹下。pyth 阅读全文

posted @ 2017-04-06 21:15 mirancy 阅读(1807) 评论(0) 推荐(0) 编辑

导航