Chenkun - 博客园

2016年7月25日

摘要：概述在前面两篇（ "爬虫学习之基于Scrapy的网络爬虫" 和 "爬虫学习之简单的网络爬虫" ）文章中我们通过两个实际的案例，采用不同的方式进行了内容提取。我们对网络爬虫有了一个比较初级的认识，只要发起请求获取响应的网页内容，然后对内容进行格式化存储。很多时候我们抓取到的内容可能会发生重复，也有可阅读全文

posted @ 2016-07-25 00:23 Chenkun 阅读(1238) 评论(0) 推荐(2)

2016年7月12日

爬虫学习之基于Scrapy的网络爬虫

摘要：在上一篇文章[《爬虫学习之一个简单的网络爬虫》](http://imchenkun.com/archives/5/)中我们对爬虫的概念有了一个初步的认识，并且通过Python的一些第三方库很方便的提取了我们想要的内容，但是通常面对工作当作复杂的需求，如果都按照那样的方式来处理效率非常的低，这通常需要你自己去定义并实现很多非常基础的爬虫框架上的功能，或者需要组合很多Python第三方库来做。不过不用担心，Python中有很多非常优秀的爬虫框架，比如我们接下来要学习到的Scrapy。Scrapy官方有很经典的入门文档说明，这一篇仅仅是通过一个简单的实例来了解Scrapy这个库是如何来进行网络内容提取的，更深入的学习请[阅读Scrapy官方文档](http://doc.scrapy.org/en/1.1/)。阅读全文

posted @ 2016-07-12 10:04 Chenkun 阅读(4451) 评论(2) 推荐(0)

2016年7月8日

爬虫学习之一个简单的网络爬虫

摘要：概述这是一个网络爬虫学习的技术分享，主要通过一些实际的案例对爬虫的原理进行分析，达到对爬虫有个基本的认识，并且能够根据自己的需要爬到想要的数据。有了数据后可以做数据分析或者通过其他方式重新结构化展示。什么是网络爬虫网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐阅读全文

posted @ 2016-07-08 15:20 Chenkun 阅读(27303) 评论(3) 推荐(3)

sudo rm -rf

公告