Python编程学习记录 - 随笔分类 - 小春熙子

2017.08.17 Python爬虫实战之BS4获取双色球中奖信息

摘要：1.目标分析：（1）网址：http://www.zhcw.com/ssq/kaijiangshuju/index.shtml?type=0 （2）查看框架的源代码：在中奖信息表格上右击，选择弹出菜单中的“查看框架的源代码”：（3）右击下一页的链接，再次查看框架源代码，新的框架源代码是：kaiji 阅读全文

posted @ 2017-08-17 17:15 小春熙子阅读(1146) 评论(0) 推荐(0) 编辑

2017.08.14 Python爬虫实战之Bs4获取百度贴吧内容

摘要：1.目标分析：http://tieba.baidu.com/f?kw=%E6%9D%83%E5%8A%9B%E7%9A%84%E6%B8%B8%E6%88%8F&ie=utf-8 说明浏览器接受的是utf8的编码（1）在浏览器上单击下一页，pn就会增加50：http://tieba.baidu.c 阅读全文

posted @ 2017-08-14 17:13 小春熙子阅读(392) 评论(0) 推荐(0) 编辑

2017.08.11 Python网络爬虫实战之Beautiful Soup爬虫

摘要：1.与Scrapy不同的是Beautiful Soup并不是一个框架，而是一个模块；与Scrapy相比，bs4中间多了一道解析的过程（Scrapy是URL返回什么数据，程序就接受什么数据进行过滤），bs4则在接收数据和进行过滤之间多了一个解析的过程，根据解析器的不同，最终处理的数据也有所不同，加上这阅读全文

posted @ 2017-08-11 21:16 小春熙子阅读(474) 评论(0) 推荐(0) 编辑

2017.08.10 Python爬虫实战之爬虫攻防篇

摘要：1.封锁user-agent破解： user-agent是浏览器的身份标识，网站就是通过user-agent来确定浏览器类型的。有很多网站会拒绝不符合一定标准的user-agent请求网页，如果网站将频繁访问网站的user-agent作为爬虫的标志，然后加入黑名单该怎么办？（1）首先在meiju项阅读全文

posted @ 2017-08-10 20:50 小春熙子阅读(455) 评论(0) 推荐(0) 编辑

2017.08.10 Python爬虫实战之爬虫攻防

摘要：1.创建一般的爬虫：一般来说，小于100次访问的爬虫都无须为此担心（1）以爬取美剧天堂为例，来源网页：http://www.meijutt.com/new100.html，项目准备： scrapy startproject meiju100 F:\Python\PythonWebScraping\ 阅读全文

posted @ 2017-08-10 19:50 小春熙子阅读(896) 评论(0) 推荐(0) 编辑

2017.08.07 python爬虫实战之使用代理爬取糗事百科

摘要：1.目标分析： 2.创建编辑Scrapy爬虫：（1）执行命令：（2）编辑items.py文件：（3）Scrapy项目中间件添加Headers：在Scrapy项目中，掌管proxy的中间件是scrapy.contrib.downloadermiddleware.useragent.UserA 阅读全文

posted @ 2017-08-10 13:25 小春熙子阅读(420) 评论(0) 推荐(0) 编辑

2017.08.05 Python网络爬虫实战之获取代理

摘要：1.项目准备：爬取网站：http://www.proxy360.cn/Region/China，http://www.xicidaili.com/ 2.创建编辑Scrapy爬虫： scrapy startproject getProxy scrapy genspider proxy360Spider 阅读全文

posted @ 2017-08-07 19:19 小春熙子阅读(697) 评论(0) 推荐(0) 编辑

2017.08.04 Python网络爬虫之Scrapy爬虫实战二天气预报的数据存储问题

摘要：1.数据存储到JSon：程序阅读一般都是使用更方便的Json或者cvs等待格式，继续讲解Scrapy爬虫的保存方式，也就是继续对pipelines.py文件动手脚（1）创建pipelines2json.py文件：（2）修改Settings.py文件，将pipelines2json加入到ITEM_ 阅读全文

posted @ 2017-08-05 14:58 小春熙子阅读(246) 评论(0) 推荐(0) 编辑

2017.08.04 Python网络爬虫之Scrapy爬虫实战二天气预报

摘要：1.项目准备：网站地址：http://quanzhou.tianqi.com/ 2.创建编辑Scrapy爬虫： scrapy startproject weather scrapy genspider HQUSpider quanzhou.tianqi.com 项目文件结构如图： 3.修改Items 阅读全文

posted @ 2017-08-04 20:00 小春熙子阅读(619) 评论(0) 推荐(0) 编辑

2017.07.28 Python网络爬虫之爬虫实战重新梳理------今日影视爬虫（使用Scrapy爬取ajax动态页面）

摘要：1.用Chrome浏览器重新检查网站元素：切换到Network界面选择右边的XHR过滤(XHR时XMLHttpRequest对象，一般Ajax请求的数据都是结构化数据)，这样就剩下了为数不多的几个请求，剩下的就靠我们自己一个一个的检查吧通过分析每个接口返回的request和response信息，阅读全文

posted @ 2017-08-01 13:17 小春熙子阅读(599) 评论(0) 推荐(0) 编辑

2017.07.28 Python网络爬虫之爬虫实战今日影视2 获取JS加载的数据

摘要：1.动态网页指几种可能： 1）需要用户交互，如常见的登录操作； 2）网页通过js / AJAX动态生成，如一个html里有<div id="test"></div>，通过JS生成<divid="test"><span>aaa</span></div>； 3）点击输入关键字后进行查询，而浏览器url地阅读全文

posted @ 2017-07-28 20:33 小春熙子阅读(1787) 评论(0) 推荐(0) 编辑

2017.07.25 Python网络爬虫之其他模块

摘要：1.re模块（正则表达式操作） re模块是文件处理中必不可少的模块，它主要用于字符串的查找，定位等等，在使用网络爬虫时，即使没有爬虫框架，re模块配合urllib2模块也可以完成简单的爬虫功能 2.正则表达式：（1）字符： ** .:匹配任意除换行符\n之外的字符，abc匹配abc **\:转义字阅读全文

posted @ 2017-07-28 09:32 小春熙子阅读(602) 评论(0) 推荐(0) 编辑

2017.07.26 Python网络爬虫之Scrapy爬虫实战之今日影视

摘要：1.创建项目：前提是在环境变量中添加了: 可以运行命令scrapy：（1）.scrapy startproject todayMovie （2）.scrapy genspider wuHanMovieSpider jycinema.com（搜索域）创建scrapy项目后的文件目录结构是： 2.S 阅读全文

posted @ 2017-07-28 09:28 小春熙子阅读(830) 评论(0) 推荐(0) 编辑

2017.07.26 Python网络爬虫之Scrapy爬虫框架

摘要：1.windows下安装scrapy：cmd命令行下：cd到python的scripts目录，然后运行pip install 命令然后pycharmIDE下就有了Scrapy：在cmd下运行scrapy命令，出错！！！：解决方法：在Python的Lib\site-packages文件夹下新建阅读全文

posted @ 2017-07-26 19:01 小春熙子阅读(231) 评论(0) 推荐(0) 编辑

2017.07.24 Python网络爬虫之logging模块

摘要：1.Logging模块，顾名思义就是针对日志的，到目前为止，所有的程序标准输出（输出到屏幕）都是使用print函数，Logging模块可以代替print函数的功能，并将标准输出输入到日志文件中保存起来，而且利用logging模块可以部分替代debug的功能，给程序排错 2.logging模块有6个级阅读全文

posted @ 2017-07-25 09:48 小春熙子阅读(911) 评论(0) 推荐(0) 编辑

2017.07.24 Python网络爬虫之urllib2修改Header

摘要：1.urllib2修改header：（1）在使用网络爬虫时，有一些站点不喜欢被程序访问（非人为访问），会检查连接者的“身份证”；默认情况下，urllib2把自己的版本号Python-urllib2/x.y作为自己的“身份证号码”来通过检查，这个身份证号码可能会让站点有点迷惑，或者干脆不工作（2）阅读全文

posted @ 2017-07-24 20:08 小春熙子阅读(1695) 评论(0) 推荐(0) 编辑

2017.07.23 Python网络爬虫之爬虫常用模块

摘要：1.涉及网络这块，必不可少的模块就是urllib2了。顾名思义这个模块主要负责打开URL和HTTP协议之类的，还有一个模块叫urllib，但它们不是升级版的关系 2.urllib2请求返回网页（1）urllib2最贱的应用就是urllib2.urlopen函数了： urllib2.urlopen( 阅读全文

posted @ 2017-07-24 19:11 小春熙子阅读(1002) 评论(0) 推荐(0) 编辑

2017.07.22 Python网络爬虫之简单的Python脚本

摘要：1.九九乘法表： 2.斐波那契数列：又称黄金分割数列（兔子数列）：0,1,1,2,3,5,8,13,21,34..... 递归的方式定义：F（0）=0，F（1）=1，F（n）=F（n-1）+F（n-2）最正统的方法就是函数递归了，不过，Python而言，独有的数据类型--列表，可以使用append 阅读全文

posted @ 2017-07-22 22:17 小春熙子阅读(643) 评论(0) 推荐(0) 编辑

2017.07.21 Python网络爬虫之Python代码格式

摘要：1.Python在格式方面与其他大众语言相差不大，但也有它独特之处尤其是代码缩进；在其他编程语言中，代码缩进大多是为了美观，程序，函数的开始结束都由花括号来控制而python中却不一样，程序，代码块的开始结束都是由缩进来控制的。 2.Python的缩颈一般都是4个空格，先严格按照这种缩进方法来测试阅读全文

posted @ 2017-07-21 16:50 小春熙子阅读(955) 评论(0) 推荐(0) 编辑

小春熙子

随笔分类 - Python编程学习记录

公告

常用链接

最新随笔

我的标签

随笔分类

随笔档案

文章分类

文章档案