大大的大笨熊

2018年8月22日

摘要：多文件抽取有：只获取url，或直接下载，下面是怎么将数据下载下来，并显示进度。本节主要介绍urllib模块提供的urlretrieve()函数。urlretrieve()方法直接将远程数据下载到本地，函数模型： urlretrieve(url, filename None, reporthook= 阅读全文

posted @ 2018-08-22 23:34 大大的大笨熊阅读(453) 评论(0) 推荐(0) 编辑

python数据存储-- CSV

摘要： CSV，其文件以纯文本形式存储表格数据（数字和文本），CSV记录简由某种换行符分隔字段间分隔又其他字符，常见逗号或者制表符，例如：里面的rows列表中数据元组，也可以字典数组，例如：接下来是CSV的读取，要取出CSV文件，需要创建reader对象，例如：除了利用row[0]访问ID，row[ 阅读全文

posted @ 2018-08-22 00:08 大大的大笨熊阅读(2119) 评论(0) 推荐(0) 编辑

2018年8月21日

python数据存储--JSON

摘要： HTML正文存储为两种格式：JSON和CSV。存储为JSON：首先利用Requests访问http://seputu.com获取HTML文档：取每章节\中的h2标签和\中的\中接下来将数据存储为JSON。 python对JSON文件的操作分为编码和解码，通过JSON模块实现，编码是指pyth 阅读全文

posted @ 2018-08-21 17:26 大大的大笨熊阅读(5408) 评论(0) 推荐(0) 编辑

2018年8月8日

lxml的XPath解析

摘要： BeautifulSoup 可以将lxml作为默认的解析器使用，同样lxml可以单独使用。下面比较这两者之间优缺点： BeautifulSoup和lxml原理不一样，BeautifulSoup是基于DOM的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会比较大很多。而lxml是使用XPat 阅读全文

posted @ 2018-08-08 22:44 大大的大笨熊阅读(737) 评论(0) 推荐(0) 编辑

2018年8月6日

强大的BeautifulSoup

摘要： Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库·它能够通过你喜欢的转换器实现惯用的文档导航安装BeautifulSoup 推荐使用Beautiful Soup 4，已经移植到BS4中，Beautiful Soup 3已经停止开发了，下面是安装步骤：如果使阅读全文

posted @ 2018-08-06 22:36 大大的大笨熊阅读(203) 评论(0) 推荐(0) 编辑

2018年8月4日

python与正则

摘要：想了解正则的使用，请点击： "正则表达式" 。每种编程语言有一些独特的匹配方式，python也不例外： |语法|含义|表达实例|完整匹配匹配的字符串| |: :|: :|: :|: :| |\A|仅匹配字符串开头|\Aabc|abc| |\Z|仅匹配字符串末尾|abc\Z|abc| |(?P)|分组阅读全文

posted @ 2018-08-04 22:36 大大的大笨熊阅读(294) 评论(0) 推荐(0) 编辑

2018年8月2日

正则表达式

摘要：正则表达式非常强大，学好不易，需要经常用。入门前先安装一个小工具：Match Tracer 下载地址： "http://www.regex match tracer.com/" RegexBuddy（更好用）: "http://www.regexbuddy.com/download.html" 下阅读全文

posted @ 2018-08-02 15:54 大大的大笨熊阅读(490) 评论(0) 推荐(0) 编辑

2018年8月1日

人性化的Requests模块(响应与编码、header处理、cookie处理、重定向与历史记录、代理设置)

摘要： Requests库是第三方模块，需要额外进行安装。Requests是一个开源库去GitHub下载回来，进入解压文件，运行setup.py 比urllib2实现方式的代码量少，下面是POST请求：下面是get请求，但有些get请求url包含参数，如：www.xxx.com?keyword=bolg 阅读全文

posted @ 2018-08-01 23:25 大大的大笨熊阅读(272) 评论(0) 推荐(0) 编辑

httplib/urllib实现

摘要： httplib模块是一个底层基础模块，可以看到建立HTTP请求的每一步，但是实际的功能比较少。在python爬虫开发中基本用不到下面详细介绍httplib提供的常用类型和方法： httplib.HTTPConnection ( host [ , port [ , strict [ , timeou 阅读全文

posted @ 2018-08-01 21:02 大大的大笨熊阅读(311) 评论(0) 推荐(0) 编辑

HTTP请求的python实现（urlopen、headers处理、 Cookie处理、设置Timeout超时、重定向、Proxy的设置）

摘要： python实现HTTP请求的三中方式：urllib2/urllib、httplib/urllib 以及Requests urllib2/urllib实现 urllib2和urllib是python两个内置的模块，要实现HTTP功能，实现方式是以urllib2为主，urllib为辅 1 首先实现一个阅读全文

posted @ 2018-08-01 20:18 大大的大笨熊阅读(7787) 评论(0) 推荐(0) 编辑

了解XPath与XPath轴

摘要： XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。节点（Node）在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档节点（或称为根节点）。请看下面这个 XML 文档：上面的XML文档中的节点例子阅读全文

posted @ 2018-08-01 15:45 大大的大笨熊阅读(631) 评论(0) 推荐(0) 编辑

python网络编程(Socket、TCP、UDP)

摘要： Socket 是网络编程的一个抽象概念，通常我们用一个Socket表示 “打开了一个网络链接”，而打开一个Socket 需要知道目标计算机的IP 地址和端口号，再指定协议类型即可。python 提供了两个级别的网络服务 1.低级别的网络服务支持基本的Socket，它提供了标准的BSD Sockets 阅读全文

posted @ 2018-08-01 12:05 大大的大笨熊阅读(261) 评论(0) 推荐(0) 编辑

python分布式进程

摘要：分布式进程指的是将Process进程分布到多台机器上，充分利用多态机器的性能完成复杂的任务分布式进程在python 中依然要用到multiprocessing 模块。multiprocessing模块不但支持多进程，其中managers子模块还支持把多进程分布到多台机器上。可以写一个服务进程作为调阅读全文

posted @ 2018-08-01 11:29 大大的大笨熊阅读(4719) 评论(0) 推荐(3) 编辑

python协程

摘要：协程，又称微线程，是用户级的轻量级线程。协程拥有自己的寄存器上下文和栈，调度切换时，将寄存器上下文保存在其他地方，切回来恢复。因此，协程能保留上一次调用的状态。在并发编程中，协程与线程类似，每个协程有自己的本地数据，与其他协程共享全局数据和其他资源协程需要用户自己编写调度逻辑，对CPU来说，协程阅读全文

posted @ 2018-08-01 10:52 大大的大笨熊阅读(244) 评论(0) 推荐(0) 编辑

2018年7月31日

python线程同步

摘要： 1 使用Thread对象的Lock和Rlock可以实现简单的线程同步，这两个对象都有acquire方法和release方法，对于那些需要每次只允许一个线程操作的数据，可以将其操作放到acquire和release方法之间。 1.1 对于Lock对象而言，如果一个线程连续两次进行acquire操作，那阅读全文

posted @ 2018-07-31 23:26 大大的大笨熊阅读(845) 评论(0) 推荐(0) 编辑