小宇15561566132 - 博客园

文本挖掘——jieba分词

2017-03-19 12:30 by 小宇15561566132, 2765 阅读, 0 推荐, 收藏,

摘要：python 结巴分词(jieba)学习特点 1，支持三种分词模式： a,精确模式，试图将句子最精确地切开，适合文本分析； b,全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义； c,搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。阅读全文

0 Comment

关于“淘宝爆款”的数据抓取与数据分析

2017-03-05 11:46 by 小宇15561566132, 359 阅读, 0 推荐, 收藏,

摘要：这个问题最初是源于我在知乎上一个回答（http://www.zhihu.com/question/24368542/answer/27579662），涉及了两个方面：数据抓取和数据分析。 1、数据爬取爬取对象：淘宝“连衣裙夏”的搜索结果。爬取对象的选择分析我在文章中也有提及。工具：Scrapy 阅读全文

0 Comment

淘搜索之网页抓取系统分析与实现（4）- 实现&总结

2017-03-05 11:45 by 小宇15561566132, 247 阅读, 0 推荐, 收藏,

摘要：以一淘搜索的crawler为核心展开的分析到此基本结束了，除了django和mysql部分没有涉及，其它部分都进行了test，尤其是围绕crawler，所展开的分析和实现主要有： 1. 分布式crawler与分布式pipeline处理。使用scrapy+redis实现，用到了scrapy+scra 阅读全文

0 Comment

淘搜索之网页抓取系统分析与实现（3）—scrapy+webkit & mysql+django

2017-03-05 11:43 by 小宇15561566132, 494 阅读, 0 推荐, 收藏,

摘要：结构图 scrapy+webkit：如结构图③。scrapy不能实现对javascript的处理，所以需要webkit解决这个问题。开源的解决方案可以选择scrapinghub的scrapyjs或者功能更强大的splash.关于scrapy+webkit的使用后期进行分析。 scrapy+djan 阅读全文

0 Comment

淘搜索之网页抓取系统分析与实现（2）—redis + scrapy

2017-03-05 11:42 by 小宇15561566132, 317 阅读, 0 推荐, 收藏,

摘要：1.scrapy+redis使用 (1)应用这里redis与scrapy一起,scrapy作为crawler，而redis作为scrapy的调度器。如架构图中的②所示。图1 架构图 (2)为什么选择redis redis作为调度器的实现仍然和其特性相关，可见《一淘搜索之网页抓取系统分析与实现（1）阅读全文

0 Comment

淘搜索之网页抓取系统分析与实现（1）—redis使用

2017-03-05 11:41 by 小宇15561566132, 239 阅读, 0 推荐, 收藏,

摘要：1.redis使用 (1)应用 redis在抓取系统中主要承担两方面的责任，其一是作为链接存储数据库，其二是与ceawler一起并作为crawler的调度器。后者将在“scrapr+redis(http://blog.csdn.net/u012150179/article/details/38226 阅读全文

0 Comment

Scrapy研究探索（七）——如何防止被ban之策略大集合

2017-03-05 11:38 by 小宇15561566132, 498 阅读, 0 推荐, 收藏,

摘要：话说在尝试设置download_delay小于1，并且无任何其他防止被ban的策略之后，我终于成功的被ban了。关于scrapy的使用可参见之前文章： http://blog.csdn.net/u012150179/article/details/34913315 http://blog.csdn 阅读全文

0 Comment

Scrapy研究探索（六）——自动爬取网页之II（CrawlSpider）

2017-03-05 11:37 by 小宇15561566132, 428 阅读, 0 推荐, 收藏,

摘要：转载自：http://blog.csdn.net/u012150179/article/details/34913315 一.目的。在教程（二）（http://blog.csdn.net/u012150179/article/details/32911511）中使用基于Spider实现了自己的w3 阅读全文

0 Comment

Scrapy研究探索（五）——自动多网页爬取（抓取某人博客所有文章）

2017-03-05 11:36 by 小宇15561566132, 2492 阅读, 0 推荐, 收藏,

摘要：首先，在教程（二）（http://blog.csdn.net/u012150179/article/details/32911511）中，研究的是爬取单个网页的方法。在教程（三）（http://blog.csdn.net/u012150179/article/details/34441655）中，讨阅读全文

0 Comment

Scrapy研究探索（四）——中文输出与中文保存

2017-03-05 11:35 by 小宇15561566132, 193 阅读, 0 推荐, 收藏,

摘要：提取网页中中文并输出或者是保存时经常会出现一个问题是显示的是中文对应的unicode编码而非中文本身，这里讲述解决这种问题的方法。一. 针对交互输出。如以下代码： [python] view plain copy title = site.xpath('a/text()').extract() 阅读全文

0 Comment

About