2017 年 10月随笔档案 - 逍遥游2

用python写网络爬虫 -从零开始 4 用正则表达式编写链接爬虫

摘要：通过之前的学习，我们编写了两个基本的爬虫。但对于一些内容大的网站，我们就需要对其进行跟踪链接，利用正则表达式来确定需要下载的页面。1.正则表达式下载链接，其中 urlparse 模块用来实现相对路径转换成绝对路径，通过一个 import reimport urlparse def link_cr 阅读全文

posted @ 2017-10-08 20:58 逍遥游2 阅读(198) 评论(0) 推荐(0) 编辑

用python写网络爬虫 -从零开始 3 编写ID遍历爬虫

摘要：我们在访问网站的时候，发现有些网页ID 是按顺序排列的数字，这个时候我们就可以使用ID遍历的方式来爬取内容。但是局限性在于有些ID数字在10位数左右，那么这样爬取效率就会很低很低！import itertoolsfrom common import downloaddef iteration(): 阅读全文

posted @ 2017-10-08 20:35 逍遥游2 阅读(280) 评论(0) 推荐(0) 编辑

用python写网络爬虫 -从零开始 2 编写网站地图爬虫

摘要：以下定义了一个网站地图爬虫，阅读全文

posted @ 2017-10-08 20:30 逍遥游2 阅读(827) 评论(0) 推荐(0) 编辑

用python写网络爬虫 -从零开始 1 编写第一个网络爬虫

摘要：本文从最简单的爬虫开始，通过添加检测下载错误，设置用户代理，设置网络代理，逐渐完善爬虫功能。首先说明一下代码的使用方法：在python2.7 环境下，用命令行也可以，用Pycharm编辑也可以。通过定义函数，然后引用函数完成网页抓取例如： download （”HTTP：//www.baid 阅读全文

posted @ 2017-10-08 20:16 逍遥游2 阅读(732) 评论(0) 推荐(0) 编辑

ID遍历爬虫

摘要：我们在目标网站打开时发现一些网页ID是连续的数字时，这时候我们就可以用ID遍历的方式进行爬取，但是这样的网站弱点比较少见，特别是有一些ID数字是十多位的数字，这样爬取的时候就会花大量的时间，所以说这样的方法并不是最高效的方法max_errors=5# current number of consec 阅读全文

posted @ 2017-10-08 17:10 逍遥游2 阅读(358) 评论(0) 推荐(0) 编辑

python 正则表达式 re findall 返回能匹配的字符串

摘要：python 正则表达式 re findall 方法能够以列表的形式返回能匹配的子串。 re.findall(pattern, string[, flags]): 搜索string，以列表形式返回全部能匹配的子串。先看个简单的代码：import re p = re.compile(r'\d+')pr 阅读全文

posted @ 2017-10-08 15:08 逍遥游2 阅读(22251) 评论(0) 推荐(0) 编辑

用python零基础写爬虫--编写第一个网络爬虫 -2 设置用户代理

摘要：1.设置用户代理默认情况下，urliib2使用python-urllib、2.7 作为用户代理下载网页内容，其中2.7是python的版本号。为避免一些网站禁封这个默认的用户代理，确保下载更加可靠，我们需要控制用户代理的设定。下面代码对download函数设定了一个名称为 “wswp” 的用户代理阅读全文

posted @ 2017-10-08 15:00 逍遥游2 阅读(216) 评论(0) 推荐(0) 编辑

用python零基础写爬虫--编写第一个网络爬虫

摘要：首先要说明的是，一下代码是在python2.7版本下检测的一.最简单的爬虫程序 --下载网页 1、urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。他以urlopen函数的形式提供了一个非常简单的接口，这是具有利用不同协议获取URLs的能力阅读全文

posted @ 2017-10-07 23:52 逍遥游2 阅读(372) 评论(0) 推荐(0) 编辑

Python 标准库 urllib2 的使用

摘要：刚好用到，这篇文章写得不错，转过来收藏。转载自道可道 | Python 标准库 urllib2 的使用细节 Python 标准库中有很多实用的工具类，但是在具体使用时，标准库文档上对使用细节描述的并不清楚，比如 urllib2 这个 HTTP 客户端库。这里总结了一些 urllib2 库的使用细阅读全文

posted @ 2017-10-07 21:18 逍遥游2 阅读(158) 评论(0) 推荐(0) 编辑

转载《Python爬虫学习系列教程》学习笔记

摘要：《Python爬虫学习系列教程》学习笔记 http://cuiqingcai.com/1052.html 大家好哈，我呢最近在学习Python爬虫，感觉非常有意思，真的让生活可以方便很多。学习过程中我把一些学习的笔记总结下来，还记录了一些自己实际写的一些小爬虫，在这里跟大家一同分享，希望对Pytho 阅读全文

posted @ 2017-10-06 20:49 逍遥游2 阅读(123) 评论(0) 推荐(0) 编辑

【转帖】用python爬虫抓站的一些技巧总结

摘要：from http://obmem.info/?p=476 学用python也有3个多月了，用得最多的还是各类爬虫脚本：写过抓代理本机验证的脚本，写过在discuz论坛中自动登录自动发贴的脚本，写过自动收邮件的脚本，写过简单的验证码识别的脚本，本来想写google music的抓取脚本的，结果有了强阅读全文

posted @ 2017-10-06 20:47 逍遥游2 阅读(195) 评论(0) 推荐(0) 编辑

函数的定义 def

摘要：在某些编程语言当中，函数声明和函数定义是区分开的（在这些编程语言当中函数声明和函数定义可以出现在不同的文件中，比如C语言），但是在Python中，函数声明和函数定义是视为一体的。在Python中，函数定义的基本形式如下：在这里说明几点：（1）在Python中采用def关键字进行函数的定义，不用指阅读全文

posted @ 2017-10-05 00:14 逍遥游2 阅读(1238) 评论(0) 推荐(0) 编辑

使用 pycharm安装各个模块

摘要：1.打开pycharm，点击File,再点击settings 2.点击settings之后再点击project下面的project Interpreter将会出现如下界面： 3.点击“+”号，搜索并安装相应的模块阅读全文

posted @ 2017-10-03 23:53 逍遥游2 阅读(438) 评论(0) 推荐(0) 编辑

用python 写网络爬虫--零基础

摘要：在爬取网站之前，要做以下几项工作 1.下载并检查网站的robots.txt文件，让爬虫了解该网站爬取时有哪些限制。 2.检查网站地图 3.估算网站大小利用百度或者谷歌搜索 Site:example.webscraping.com 结果如下找到相关结果数约5个数字为估算值。网站管理员如需了解阅读全文

posted @ 2017-10-03 22:27 逍遥游2 阅读(195) 评论(0) 推荐(0) 编辑

robots.txt 文件是什么？如何获取

摘要：1.robots.txt基本介绍 robots.txt是一个纯文本文件，在这个文件中网站管理者可以声明该网站中不想被robots访问的部分，或者指定搜索引擎只收录指定的内容。当一个搜索机器人（有的叫搜索蜘蛛）访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器阅读全文

posted @ 2017-10-01 23:52 逍遥游2 阅读(1307) 评论(0) 推荐(0) 编辑

Python: NLTK几个入门函数

摘要：1.统计词频的concordance() 函数格式：text.concordance(“the text word”) 例如：text.concordance(word) text1.concordance("monstrous")Displaying 11 of 11 matches:ong 阅读全文

posted @ 2017-10-01 00:11 逍遥游2 阅读(214) 评论(0) 推荐(0) 编辑

nltk book的下载

摘要：1. 在安装了NLTK 之后，打开python 输入 import nltk ，没有报错表示安装成功过 2. 运行 nltk.download() 命令，会出现下载页面经过多次下载出错多次，终于成功有需要的可以 @我，通过百度网盘共享 http://pan.baidu.com/s/1bpe 阅读全文

posted @ 2017-10-01 00:03 逍遥游2 阅读(844) 评论(0) 推荐(0) 编辑

10 2017 档案

公告