随笔分类 - Python
摘要:自动化测试工具,支持多种浏览器。爬虫中主要用来解决JavaScript渲染的问题。 主要是操控流量器,让浏览器做一些点击啊、加载渲染js啊,之类的。
阅读全文
摘要:强大又灵活的网页解析库。如果你觉得正则写起来太麻烦,如果你觉得BeautifulSoup语法太难记,如果你熟悉jQuery的语法,那么PyQuery就是你的绝佳选择。
阅读全文
摘要:恢复内容开始 灵活又方便的网页解析库,处理高效,支持多种解析器。 利用它不用编写正则表达式即可方便地实现网页信息的提取。 这个库有四个主要方法吧,其中xlml是最常用的,他的标签选择器可以取出任何标签的内容。 如果有多个标签的话,只获取第一个标签的内容。 除了获取标签的内容之外,还可以获取标签内的属
阅读全文
摘要:玩正则表达式是Python的re模块的方法 re.match()方法有三个参数: 第一个参数就是你自己写的正则表达式,第二个就是你要匹配的目标字符串,第三个就是一个匹配的模式。 这个东西没什么难点,就是需要多练习。
阅读全文
摘要:在pycharm中点击File,之后在弹出的窗口中输入Project Interpreter,点击之后就可以看到自己的解释器版本是多少了,也可以随意选择想要用的解释器版本号码:
阅读全文
摘要:安装pip之前要先安装Anaconda。 1、下载: 2、解压/安装 3、pip安装包 4、下载爬虫所需要的各种库(pip3或者pip) pip检查那些包需要更新 pip升级包 pip卸载包 具体的看这里: http://www.ttlsa.com/python/how-to-install-and
阅读全文
摘要:返回百度的源码,没有任何伪装: response是服务器响应的类文件,除了支持文件操作的方法以外,还支持以下方法:
阅读全文
摘要:爬虫分为两个领域: 聚焦爬虫和通用爬虫。 通用爬虫: 搜索引擎用的爬虫系统。 目标: 搜索互联网所有的信息下载下来,放到本地服务器,再对这些网页进行相关处理,提取关键字什么的,最终给用户提供一个检索的接口,他们每隔一段时间获取一次。 百度快照的好处: 如果直接点击链接的话,可能信息已经被删除了,但是
阅读全文
摘要:闭包: 有两个函数,他们是嵌套关系,而里面的函数在运行的时候,需要使用外部函数的参数,这种情况就称为闭包。 装饰器: 1.引入日志2.函数执行时间统计3.执行函数前预备处理4.执行函数后清理功能5.权限校验等场景6.缓存 装饰器太几把绕了,以后再学
阅读全文
摘要:通过列表生成式,我们可以直接创建一个列表。但是,受到内存限制,列表容量肯定是有限的。而且,创建一个包含100万个元素的列表,不仅占用很大的存储空间,如果我们仅仅需要访问前面几个元素,那后面绝大多数元素占用的空间都白白浪费了。所以,如果列表元素可以按照某种算法推算出来,那我们是否可以在循环的过程中不断
阅读全文
摘要:什么叫做闭包呢? 闭包就是有两个函数,他们两个属于嵌套类型的,而在里面执行的这个函数,需要借助于外面函数的参数,这种关系就叫做闭包,具体的去其他地方看吧 ,我是野路子的。 Python程序中是允许出现相同的方法的,如果程序运行的时候,以后面的方法为准。
阅读全文
摘要:1 class Person(object): 2 """人的类""" 3 def __init__(self, name): 4 super(Person, self).__init__() 5 self.name = name 6 self.gun = None#用来保存枪对象的引用 7 ...
阅读全文