随笔分类 -  Python

该文被密码保护。
posted @ 2017-11-06 23:04 随意随性 阅读(0) 评论(0) 推荐(0) 编辑
摘要:自动化测试工具,支持多种浏览器。爬虫中主要用来解决JavaScript渲染的问题。 主要是操控流量器,让浏览器做一些点击啊、加载渲染js啊,之类的。 阅读全文
posted @ 2017-11-01 12:49 随意随性 阅读(141) 评论(0) 推荐(0) 编辑
摘要:强大又灵活的网页解析库。如果你觉得正则写起来太麻烦,如果你觉得BeautifulSoup语法太难记,如果你熟悉jQuery的语法,那么PyQuery就是你的绝佳选择。 阅读全文
posted @ 2017-11-01 12:42 随意随性 阅读(158) 评论(0) 推荐(0) 编辑
摘要:恢复内容开始 灵活又方便的网页解析库,处理高效,支持多种解析器。 利用它不用编写正则表达式即可方便地实现网页信息的提取。 这个库有四个主要方法吧,其中xlml是最常用的,他的标签选择器可以取出任何标签的内容。 如果有多个标签的话,只获取第一个标签的内容。 除了获取标签的内容之外,还可以获取标签内的属 阅读全文
posted @ 2017-11-01 12:04 随意随性 阅读(213) 评论(0) 推荐(0) 编辑
摘要:玩正则表达式是Python的re模块的方法 re.match()方法有三个参数: 第一个参数就是你自己写的正则表达式,第二个就是你要匹配的目标字符串,第三个就是一个匹配的模式。 这个东西没什么难点,就是需要多练习。 阅读全文
posted @ 2017-11-01 11:16 随意随性 阅读(152) 评论(0) 推荐(0) 编辑
摘要:在pycharm中点击File,之后在弹出的窗口中输入Project Interpreter,点击之后就可以看到自己的解释器版本是多少了,也可以随意选择想要用的解释器版本号码: 阅读全文
posted @ 2017-10-18 16:46 随意随性 阅读(384) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2017-10-18 16:40 随意随性 阅读(2) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2017-10-17 05:38 随意随性 阅读(1) 评论(0) 推荐(0) 编辑
摘要:安装pip之前要先安装Anaconda。 1、下载: 2、解压/安装 3、pip安装包 4、下载爬虫所需要的各种库(pip3或者pip) pip检查那些包需要更新 pip升级包 pip卸载包 具体的看这里: http://www.ttlsa.com/python/how-to-install-and 阅读全文
posted @ 2017-10-14 14:08 随意随性 阅读(171) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2017-10-14 12:02 随意随性 阅读(0) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2017-10-12 17:08 随意随性 阅读(8) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2017-10-12 00:33 随意随性 阅读(6) 评论(0) 推荐(0) 编辑
摘要:返回百度的源码,没有任何伪装: response是服务器响应的类文件,除了支持文件操作的方法以外,还支持以下方法: 阅读全文
posted @ 2017-10-11 00:21 随意随性 阅读(368) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2017-10-10 23:59 随意随性 阅读(0) 评论(0) 推荐(0) 编辑
摘要:爬虫分为两个领域: 聚焦爬虫和通用爬虫。 通用爬虫: 搜索引擎用的爬虫系统。 目标: 搜索互联网所有的信息下载下来,放到本地服务器,再对这些网页进行相关处理,提取关键字什么的,最终给用户提供一个检索的接口,他们每隔一段时间获取一次。 百度快照的好处: 如果直接点击链接的话,可能信息已经被删除了,但是 阅读全文
posted @ 2017-10-10 23:20 随意随性 阅读(240) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2017-10-07 15:45 随意随性 阅读(174) 评论(0) 推荐(0) 编辑
摘要:闭包: 有两个函数,他们是嵌套关系,而里面的函数在运行的时候,需要使用外部函数的参数,这种情况就称为闭包。 装饰器: 1.引入日志2.函数执行时间统计3.执行函数前预备处理4.执行函数后清理功能5.权限校验等场景6.缓存 装饰器太几把绕了,以后再学 阅读全文
posted @ 2017-10-07 15:07 随意随性 阅读(154) 评论(0) 推荐(0) 编辑
摘要:通过列表生成式,我们可以直接创建一个列表。但是,受到内存限制,列表容量肯定是有限的。而且,创建一个包含100万个元素的列表,不仅占用很大的存储空间,如果我们仅仅需要访问前面几个元素,那后面绝大多数元素占用的空间都白白浪费了。所以,如果列表元素可以按照某种算法推算出来,那我们是否可以在循环的过程中不断 阅读全文
posted @ 2017-10-07 15:02 随意随性 阅读(388) 评论(0) 推荐(0) 编辑
摘要:什么叫做闭包呢? 闭包就是有两个函数,他们两个属于嵌套类型的,而在里面执行的这个函数,需要借助于外面函数的参数,这种关系就叫做闭包,具体的去其他地方看吧 ,我是野路子的。 Python程序中是允许出现相同的方法的,如果程序运行的时候,以后面的方法为准。 阅读全文
posted @ 2017-10-06 18:00 随意随性 阅读(150) 评论(0) 推荐(0) 编辑
摘要:1 class Person(object): 2 """人的类""" 3 def __init__(self, name): 4 super(Person, self).__init__() 5 self.name = name 6 self.gun = None#用来保存枪对象的引用 7 ... 阅读全文
posted @ 2017-10-05 22:34 随意随性 阅读(930) 评论(0) 推荐(0) 编辑