2018 年 2月 4 日随笔档案 - Big_hua

2018年2月4日

摘要：一、Scrapy简介 Scrapy是一个为了爬取网站数据提取结构性数据而编写的应用框架，可以应用于数据挖掘，信息处理或存储历史数据等一些列的程序中。Scrapy最初就是为了网络爬取而设计的。现在，Scrapy已经推出了曾承诺过的Python3.x版本。为什么学习Scrapy呢？它能我们更好的完成爬阅读全文

posted @ 2018-02-04 17:14 Big_hua 阅读(1004) 评论(0) 推荐(0) 编辑

Requests: 模块

摘要： Requests: 让 HTTP 服务人类虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能，但是它的 API 使用起来让人感觉不太好，而 Requests 自称 “HTTP for Humans”，说明使用更简洁方便。 Requests 唯一的一个非转基因的 Py 阅读全文

posted @ 2018-02-04 16:54 Big_hua 阅读(286) 评论(0) 推荐(0) 编辑

Python3网络爬虫(四)：使用User Agent和代理IP隐藏身份

摘要：一、为何要设置User Agent 有一些网站不喜欢被爬虫程序访问，所以会检测连接对象，如果是爬虫程序，也就是非人点击访问，它就会不让你继续访问，所以为了要让程序可以正常运行，需要隐藏自己的爬虫程序的身份。此时，我们就可以通过设置User Agent的来达到隐藏身份的目的，User Agent的中文阅读全文

posted @ 2018-02-04 16:44 Big_hua 阅读(693) 评论(0) 推荐(0) 编辑

Python3网络爬虫(三)：urllib.error异常

摘要：一.urllib.error urllib.error可以接收有urllib.request产生的异常。urllib.error有两个方法，URLError和HTTPError。如下图所示： URLError是OSError的一个子类，HTTPError是URLError的一个子类，服务器上HTTP 阅读全文

posted @ 2018-02-04 16:40 Big_hua 阅读(2874) 评论(0) 推荐(0) 编辑

Python3网络爬虫(二)：利用urllib.urlopen向有道翻译发送数据获得翻译结果

摘要：一、urlopen的url参数 Agent url不仅可以是一个字符串，例如:http://www.baidu.com。url也可以是一个Request对象，这就需要我们先定义一个Request对象，然后将这个Request对象作为urlopen的参数使用，方法如下： 1 2 3 4 5 6 7 8 阅读全文

posted @ 2018-02-04 16:30 Big_hua 阅读(717) 评论(0) 推荐(1) 编辑

Python3网络爬虫(一)：利用urllib进行简单的网页抓取

摘要：一、预备知识 1.Python3.x基础知识学习：可以在通过如下方式进行学习： (1)廖雪峰Python3教程(文档)： URL：http://www.liaoxuefeng.com/ (2)菜鸟教程Python3教程(文档)： URL：http://www.runoob.com/python3/ 阅读全文

posted @ 2018-02-04 16:26 Big_hua 阅读(2460) 评论(0) 推荐(0) 编辑

dahua7758521

公告