随笔分类 -  Python编程学习记录

摘要:1.目标分析: (1)网址:http://www.zhcw.com/ssq/kaijiangshuju/index.shtml?type=0 (2)查看框架的源代码:在中奖信息表格上右击,选择弹出菜单中的“查看框架的源代码”: (3)右击下一页的链接,再次查看框架源代码,新的框架源代码是:kaiji 阅读全文
posted @ 2017-08-17 17:15 小春熙子 阅读(1146) 评论(0) 推荐(0) 编辑
摘要:1.目标分析:http://tieba.baidu.com/f?kw=%E6%9D%83%E5%8A%9B%E7%9A%84%E6%B8%B8%E6%88%8F&ie=utf-8 说明浏览器接受的是utf8的编码 (1)在浏览器上单击下一页,pn就会增加50:http://tieba.baidu.c 阅读全文
posted @ 2017-08-14 17:13 小春熙子 阅读(392) 评论(0) 推荐(0) 编辑
摘要:1.与Scrapy不同的是Beautiful Soup并不是一个框架,而是一个模块;与Scrapy相比,bs4中间多了一道解析的过程(Scrapy是URL返回什么数据,程序就接受什么数据进行过滤),bs4则在接收数据和进行过滤之间多了一个解析的过程,根据解析器的不同,最终处理的数据也有所不同,加上这 阅读全文
posted @ 2017-08-11 21:16 小春熙子 阅读(474) 评论(0) 推荐(0) 编辑
摘要:1.封锁user-agent破解: user-agent是浏览器的身份标识,网站就是通过user-agent来确定浏览器类型的。有很多网站会拒绝不符合一定标准的user-agent请求网页,如果网站将频繁访问网站的user-agent作为爬虫的标志,然后加入黑名单该怎么办? (1)首先在meiju项 阅读全文
posted @ 2017-08-10 20:50 小春熙子 阅读(455) 评论(0) 推荐(0) 编辑
摘要:1.创建一般的爬虫:一般来说,小于100次访问的爬虫都无须为此担心 (1)以爬取美剧天堂为例,来源网页:http://www.meijutt.com/new100.html,项目准备: scrapy startproject meiju100 F:\Python\PythonWebScraping\ 阅读全文
posted @ 2017-08-10 19:50 小春熙子 阅读(896) 评论(0) 推荐(0) 编辑
摘要:1.目标分析: 2.创建编辑Scrapy爬虫: (1)执行命令: (2)编辑items.py文件: (3)Scrapy项目中间件 添加Headers: 在Scrapy项目中,掌管proxy的中间件是scrapy.contrib.downloadermiddleware.useragent.UserA 阅读全文
posted @ 2017-08-10 13:25 小春熙子 阅读(420) 评论(0) 推荐(0) 编辑
摘要:1.项目准备:爬取网站:http://www.proxy360.cn/Region/China,http://www.xicidaili.com/ 2.创建编辑Scrapy爬虫: scrapy startproject getProxy scrapy genspider proxy360Spider 阅读全文
posted @ 2017-08-07 19:19 小春熙子 阅读(697) 评论(0) 推荐(0) 编辑
摘要:1.数据存储到JSon:程序阅读一般都是使用更方便的Json或者cvs等待格式,继续讲解Scrapy爬虫的保存方式,也就是继续对pipelines.py文件动手脚 (1)创建pipelines2json.py文件: (2)修改Settings.py文件,将pipelines2json加入到ITEM_ 阅读全文
posted @ 2017-08-05 14:58 小春熙子 阅读(246) 评论(0) 推荐(0) 编辑
摘要:1.项目准备:网站地址:http://quanzhou.tianqi.com/ 2.创建编辑Scrapy爬虫: scrapy startproject weather scrapy genspider HQUSpider quanzhou.tianqi.com 项目文件结构如图: 3.修改Items 阅读全文
posted @ 2017-08-04 20:00 小春熙子 阅读(619) 评论(0) 推荐(0) 编辑
摘要:1.用Chrome浏览器重新检查网站元素:切换到Network界面 选择右边的XHR过滤(XHR时XMLHttpRequest对象,一般Ajax请求的数据都是结构化数据),这样就剩下了为数不多的几个请求,剩下的就靠我们自己一个一个的检查吧 通过分析每个接口返回的request和response信息, 阅读全文
posted @ 2017-08-01 13:17 小春熙子 阅读(599) 评论(0) 推荐(0) 编辑
摘要:1.动态网页指几种可能: 1)需要用户交互,如常见的登录操作; 2)网页通过js / AJAX动态生成,如一个html里有<div id="test"></div>,通过JS生成<divid="test"><span>aaa</span></div>; 3)点击输入关键字后进行查询,而浏览器url地 阅读全文
posted @ 2017-07-28 20:33 小春熙子 阅读(1787) 评论(0) 推荐(0) 编辑
摘要:1.re模块(正则表达式操作) re模块是文件处理中必不可少的模块,它主要用于字符串的查找,定位等等,在使用网络爬虫时,即使没有爬虫框架,re模块配合urllib2模块也可以完成简单的爬虫功能 2.正则表达式: (1)字符: ** .:匹配任意除换行符\n之外的字符,abc匹配abc **\:转义字 阅读全文
posted @ 2017-07-28 09:32 小春熙子 阅读(602) 评论(0) 推荐(0) 编辑
摘要:1.创建项目:前提是在环境变量中添加了: 可以运行命令scrapy: (1).scrapy startproject todayMovie (2).scrapy genspider wuHanMovieSpider jycinema.com(搜索域) 创建scrapy项目后的文件目录结构是: 2.S 阅读全文
posted @ 2017-07-28 09:28 小春熙子 阅读(830) 评论(0) 推荐(0) 编辑
摘要:1.windows下安装scrapy:cmd命令行下:cd到python的scripts目录,然后运行pip install 命令 然后pycharmIDE下就有了Scrapy: 在cmd下运行scrapy命令,出错!!!: 解决方法: 在Python的Lib\site-packages文件夹下新建 阅读全文
posted @ 2017-07-26 19:01 小春熙子 阅读(231) 评论(0) 推荐(0) 编辑
摘要:1.Logging模块,顾名思义就是针对日志的,到目前为止,所有的程序标准输出(输出到屏幕)都是使用print函数,Logging模块可以代替print函数的功能,并将标准输出输入到日志文件中保存起来,而且利用logging模块可以部分替代debug的功能,给程序排错 2.logging模块有6个级 阅读全文
posted @ 2017-07-25 09:48 小春熙子 阅读(911) 评论(0) 推荐(0) 编辑
摘要:1.urllib2修改header: (1)在使用网络爬虫时,有一些站点不喜欢被程序访问(非人为访问),会检查连接者的“身份证”;默认情况下,urllib2把自己的版本号Python-urllib2/x.y作为自己的“身份证号码”来通过检查,这个身份证号码可能会让站点有点迷惑,或者干脆不工作 (2) 阅读全文
posted @ 2017-07-24 20:08 小春熙子 阅读(1695) 评论(0) 推荐(0) 编辑
摘要:1.涉及网络这块,必不可少的模块就是urllib2了。顾名思义这个模块主要负责打开URL和HTTP协议之类的,还有一个模块叫urllib,但它们不是升级版的关系 2.urllib2请求返回网页 (1)urllib2最贱的应用就是urllib2.urlopen函数了: urllib2.urlopen( 阅读全文
posted @ 2017-07-24 19:11 小春熙子 阅读(1002) 评论(0) 推荐(0) 编辑
摘要:1.九九乘法表: 2.斐波那契数列:又称黄金分割数列(兔子数列):0,1,1,2,3,5,8,13,21,34..... 递归的方式定义:F(0)=0,F(1)=1,F(n)=F(n-1)+F(n-2) 最正统的方法就是函数递归了,不过,Python而言,独有的数据类型--列表,可以使用append 阅读全文
posted @ 2017-07-22 22:17 小春熙子 阅读(643) 评论(0) 推荐(0) 编辑
摘要:1.Python在格式方面与其他大众语言相差不大,但也有它独特之处尤其是代码缩进;在其他编程语言中,代码缩进大多是为了美观,程序,函数的开始结束都由花括号来控制 而python中却不一样,程序,代码块的开始结束都是由缩进来控制的。 2.Python的缩颈一般都是4个空格,先严格按照这种缩进方法来测试 阅读全文
posted @ 2017-07-21 16:50 小春熙子 阅读(955) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示