打不死的流云

2016年7月21日

摘要：往往需要爬取的网页是呈一个树状结构。比如，需要先爬取一个目录，然后再在目录中选择具体的爬取目标。而目录和具体目标之间，网页结构不同，使得我们不能使用相同的爬取策略。从之前的经验来看，我们对scrapy进行操作是从Spider的Parse()函数作为入口。不如在parse()函数中对对目录进行操作，阅读全文

posted @ 2016-07-21 22:20 打不死的流云阅读(440) 评论(0) 推荐(0)

2016年7月20日

LeetCode 368

摘要：题目描述： Given a set of distinct positive integers, find the largest subset such that every pair (Si, Sj) of elements in this subset satisfies: Si % Sj = 阅读全文

posted @ 2016-07-20 22:20 打不死的流云阅读(259) 评论(0) 推荐(0)

Python爬虫Scrapy框架入门（2）

摘要：本文是跟着大神博客，尝试从网站上爬一堆东西，一堆你懂得的东西附上原创链接： http://www.cnblogs.com/qiyeboy/p/5428240.html 基本思路是，查看网页元素，填写xpath表达式，获取信息。自动爬取策略是，找到翻页网页元素，获取新链接地址，执行翻页。网页分析部分阅读全文

posted @ 2016-07-20 19:45 打不死的流云阅读(1605) 评论(0) 推荐(0)

LeetCode 372

摘要：题目： Your task is to calculate a^b mod 1337 where a is a positive integer and b is an extremely large positive integer given in the form of an array. 求阅读全文

posted @ 2016-07-20 18:57 打不死的流云阅读(509) 评论(0) 推荐(0)

2016年7月19日

Python爬虫Scrapy框架入门（1）

摘要：也许是很少接触python的原因，我觉得是Scrapy框架和以往Java框架很不一样：它真的是个框架。从表层来看，与Java框架引入jar包、配置xml或.property文件不同，Scrapy的模式是先用Scrapy建立项目，然后对项目中部分文件进行编辑，从而达到爬取相应网页的目的。控制台-> 阅读全文

posted @ 2016-07-19 19:45 打不死的流云阅读(224) 评论(0) 推荐(0)

2016年7月13日

Something about pip in Python

摘要：学习python爬虫框架scrapy的时候，用到pip管理工具来安装scrapy。最直观的感受，pip有点类似于Ubuntu下的apt-get工具，几行代码，自动下载、安装相关的东西。网上查了一些背景资料。 python的使用过程中经常引入其他包来实现功能，而pip就是一个管理这些包的工具。当前比较阅读全文

posted @ 2016-07-13 17:29 打不死的流云阅读(294) 评论(0) 推荐(0)

Python爬虫Scrapy框架入门（0）

摘要：想学习爬虫，又想了解python语言，有个python高手推荐我看看scrapy。 scrapy是一个python爬虫框架，据说很灵活，网上介绍该框架的信息很多，此处不再赘述。专心记录我自己遇到的问题以及解决方案吧。给几个链接吧，我是根据这几个东西来尝试学习的： scrapy中文文档（0.24版，阅读全文

posted @ 2016-07-13 16:48 打不死的流云阅读(441) 评论(0) 推荐(0)

2016年7月11日

搬新家

摘要：搬新房，住新窝，大流云，多努力，勤学习，勤记录，好好学习，天天向上！~ 阅读全文

posted @ 2016-07-11 22:55 打不死的流云阅读(100) 评论(0) 推荐(0)

打不死的流云

公告