摘要: 多文件抽取有:只获取url,或直接下载,下面是怎么将数据下载下来,并显示进度。 本节主要介绍urllib模块提供的urlretrieve()函数。urlretrieve()方法直接将远程数据下载到本地,函数模型: urlretrieve(url, filename None, reporthook= 阅读全文
posted @ 2018-08-22 23:34 大大的大笨熊 阅读(453) 评论(0) 推荐(0) 编辑
摘要: CSV,其文件以纯文本形式存储表格数据(数字和文本),CSV记录简由某种换行符分隔字段间分隔又其他字符,常见逗号或者制表符, 例如: 里面的rows列表中数据元组,也可以字典数组,例如: 接下来是CSV的读取,要取出CSV文件,需要创建reader对象,例如: 除了利用row[0]访问ID,row[ 阅读全文
posted @ 2018-08-22 00:08 大大的大笨熊 阅读(2119) 评论(0) 推荐(0) 编辑
摘要: HTML正文存储为两种格式:JSON和CSV。 存储为JSON: 首先利用Requests访问http://seputu.com获取HTML文档: 取每章节\中的h2标签和\中的\中 接下来将数据存储为JSON。 python对JSON文件的操作分为编码和解码,通过JSON模块实现,编码是指pyth 阅读全文
posted @ 2018-08-21 17:26 大大的大笨熊 阅读(5408) 评论(0) 推荐(0) 编辑
摘要: BeautifulSoup 可以将lxml作为默认的解析器使用,同样lxml可以单独使用。下面比较这两者之间优缺点: BeautifulSoup和lxml原理不一样,BeautifulSoup是基于DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会比较大很多。而lxml是使用XPat 阅读全文
posted @ 2018-08-08 22:44 大大的大笨熊 阅读(737) 评论(0) 推荐(0) 编辑
摘要: Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库·它能够通过你喜欢的转换器实现惯用的文档导航 安装BeautifulSoup 推荐使用Beautiful Soup 4,已经移植到BS4中,Beautiful Soup 3已经停止开发了,下面是安装步骤: 如果使 阅读全文
posted @ 2018-08-06 22:36 大大的大笨熊 阅读(203) 评论(0) 推荐(0) 编辑
摘要: 想了解正则的使用,请点击: "正则表达式" 。每种编程语言有一些独特的匹配方式,python也不例外: |语法|含义|表达实例|完整匹配匹配的字符串| |: :|: :|: :|: :| |\A|仅匹配字符串开头|\Aabc|abc| |\Z|仅匹配字符串末尾|abc\Z|abc| |(?P)|分组 阅读全文
posted @ 2018-08-04 22:36 大大的大笨熊 阅读(294) 评论(0) 推荐(0) 编辑
摘要: 正则表达式非常强大,学好不易,需要经常用。 入门前先安装一个小工具:Match Tracer 下载地址: "http://www.regex match tracer.com/" RegexBuddy(更好用): "http://www.regexbuddy.com/download.html" 下 阅读全文
posted @ 2018-08-02 15:54 大大的大笨熊 阅读(490) 评论(0) 推荐(0) 编辑
摘要: Requests库是第三方模块,需要额外进行安装。Requests是一个开源库 去GitHub下载回来,进入解压文件,运行setup.py 比urllib2实现方式的代码量少,下面是POST请求: 下面是get请求,但有些get请求url包含参数,如:www.xxx.com?keyword=bolg 阅读全文
posted @ 2018-08-01 23:25 大大的大笨熊 阅读(272) 评论(0) 推荐(0) 编辑
摘要: httplib模块是一个底层基础模块,可以看到建立HTTP请求的每一步,但是实际的功能比较少。在python爬虫开发中基本用不到 下面详细介绍httplib提供的常用类型和方法: httplib.HTTPConnection ( host [ , port [ , strict [ , timeou 阅读全文
posted @ 2018-08-01 21:02 大大的大笨熊 阅读(311) 评论(0) 推荐(0) 编辑
摘要: python实现HTTP请求的三中方式:urllib2/urllib、httplib/urllib 以及Requests urllib2/urllib实现 urllib2和urllib是python两个内置的模块,要实现HTTP功能,实现方式是以urllib2为主,urllib为辅 1 首先实现一个 阅读全文
posted @ 2018-08-01 20:18 大大的大笨熊 阅读(7787) 评论(0) 推荐(0) 编辑
摘要: XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。 节点(Node) 在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档节点(或称为根节点)。 请看下面这个 XML 文档: 上面的XML文档中的节点例子 阅读全文
posted @ 2018-08-01 15:45 大大的大笨熊 阅读(631) 评论(0) 推荐(0) 编辑
摘要: Socket 是网络编程的一个抽象概念,通常我们用一个Socket表示 “打开了一个网络链接”,而打开一个Socket 需要知道目标计算机的IP 地址和端口号,再指定协议类型即可。python 提供了两个级别的网络服务 1.低级别的网络服务支持基本的Socket,它提供了标准的BSD Sockets 阅读全文
posted @ 2018-08-01 12:05 大大的大笨熊 阅读(261) 评论(0) 推荐(0) 编辑
摘要: 分布式进程指的是将Process进程分布到多台机器上,充分利用多态机器的性能完成复杂的任务 分布式进程在python 中依然要用到multiprocessing 模块。multiprocessing模块不但支持多进程,其中managers子模块还支持把多进程分布到多台机器上。可以写一个服务进程作为调 阅读全文
posted @ 2018-08-01 11:29 大大的大笨熊 阅读(4719) 评论(0) 推荐(3) 编辑
摘要: 协程,又称微线程,是用户级的轻量级线程。协程拥有自己的寄存器上下文和栈,调度切换时,将寄存器上下文保存在其他地方,切回来恢复。因此,协程能保留上一次调用的状态。 在并发编程中,协程与线程类似,每个协程有自己的本地数据,与其他协程共享全局数据和其他资源 协程需要用户自己编写调度逻辑,对CPU来说,协程 阅读全文
posted @ 2018-08-01 10:52 大大的大笨熊 阅读(244) 评论(0) 推荐(0) 编辑
摘要: 1 使用Thread对象的Lock和Rlock可以实现简单的线程同步,这两个对象都有acquire方法和release方法,对于那些需要每次只允许一个线程操作的数据,可以将其操作放到acquire和release方法之间。 1.1 对于Lock对象而言,如果一个线程连续两次进行acquire操作,那 阅读全文
posted @ 2018-07-31 23:26 大大的大笨熊 阅读(845) 评论(0) 推荐(0) 编辑