python xpath
摘要:article 选取article元素下的所有子元素 /article 选取根元素article html中根元素中根元素一般是html article/a 选取所有属于article的子元素的a元素 //div 选取所有div子元素 article//div 获取article元素下的所有div元
阅读全文
posted @
2019-09-22 16:46
paulversion
阅读(146)
推荐(0) 编辑
scrapy的使用
摘要:pip install scrapy 下载scrapy scrapy startproject 项目名称 创建要抓取的网站的基本模板的生成 scrapy genspider cnblogs news.cnblogs.com cnblogs 为模板名称 news.cnblogs.com为要抓取网站的域
阅读全文
posted @
2019-09-22 11:22
paulversion
阅读(162)
推荐(0) 编辑
python 正则表达式特殊字符
摘要:字符描述 \ 将下一个字符标记为一个特殊字符、或一个原义字符、或一个 向后引用、或一个八进制转义符。例如,'n' 匹配字符 "n"。'\n' 匹配一个换行符。序列 '\\' 匹配 "\" 而 "\(" 则匹配 "("。 ^ 匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multilin
阅读全文
posted @
2019-09-22 09:05
paulversion
阅读(10671)
推荐(1) 编辑
python scrapy
摘要:scrapy的安装 pip install Scrapy scrapy 常用命令 scrapy提供了两种类型的命令。一种必须在Scrapy项目中运行,是针对项目的命令;另外一种则不需要,属于全局命令 全局命令: startproject 用法 scrapy startproject <project
阅读全文
posted @
2018-02-02 16:41
paulversion
阅读(158)
推荐(0) 编辑
Python selenium
摘要:利用pip安装selenium 命令pip install selenium 我们用selenium写个小例子,功能是打开百度主页,在搜索框中输入网络爬虫,进行搜索。代码如下 #coding:utf-8from selenium import webdriverfrom selenium.webdr
阅读全文
posted @
2018-02-02 11:21
paulversion
阅读(182)
推荐(0) 编辑
Python动态网站的抓取
摘要:网页下载器 # coding:utf-8import requestsimport urllib2import systype = sys.getfilesystemencoding()class HtmlDownloader(object): def download(slef, url): if
阅读全文
posted @
2018-01-31 18:32
paulversion
阅读(281)
推荐(0) 编辑
Python 使用MySQL
摘要:在导入MySQLdb之前,需要安装MySQLdb模块。使用pip安装,命令如下: pip install MySQL-python 安装成功后,导入MySQLdb模块 import MySQLdb 连接数据库
阅读全文
posted @
2018-01-31 11:32
paulversion
阅读(151)
推荐(0) 编辑
Python简单分布式爬虫
摘要:分布式爬虫采用主从模式。主从模式是指由一台主机作为控制节点,负责管理所有运行网络爬虫的主机(url管理器,数据存储器,控制调度器),爬虫只需要从控制节点哪里接收任务,并把新生成任务提交给控制节点。此次使用三台主机进行分布式爬取,一台主机作为控制节点,另外两台主机作为爬虫节点。 控制节点主要分为url
阅读全文
posted @
2018-01-30 17:34
paulversion
阅读(243)
推荐(0) 编辑
Python 基础爬虫架构
摘要:基础爬虫框架主要包括五大模块,分别为爬虫调度器、url管理器、HTML下载器、HTML解析器、数据存储器。 1:爬虫调度器主要负责统筹其他四个模块的协调工作 2: URL管理器负责管理URL连接,维护已经爬取的URL集合和未爬取的URL集合,提供获取新URL链接的接口 3: HTML下载器用于从UR
阅读全文
posted @
2018-01-24 18:30
paulversion
阅读(755)
推荐(0) 编辑
Python 邮箱
摘要:#coding:utf-8from email.header import Headerfrom email.mime.text import MIMETextfrom email.utils import parseaddr,formataddrimport smtplib def _fromat
阅读全文
posted @
2018-01-24 15:44
paulversion
阅读(213)
推荐(0) 编辑
Python 抓取图片
摘要:#coding:utf-8from bs4 import BeautifulSoupimport requestsimport urllib user_agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTM
阅读全文
posted @
2018-01-23 18:25
paulversion
阅读(239)
推荐(0) 编辑
Python将数据保存到CSV中
摘要:#coding:utf-8import csv headers = ['ID','UserName','Password','Age','Country'] rows = [(1001,'qiye','qiye_pass',24,'China'), (1002,'Mary','Mary_pass',
阅读全文
posted @
2018-01-23 17:04
paulversion
阅读(49593)
推荐(0) 编辑
Python 爬取盗墓笔记的标题,章节,章节名称
摘要:# coding:utf-8import requestsimport jsonfrom bs4 import BeautifulSoup user_agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML
阅读全文
posted @
2018-01-23 16:33
paulversion
阅读(590)
推荐(0) 编辑
Python beautifulSoup
摘要:BeautifulSoup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag、NavigableString、BeautifulSoup 、Comment Tag对象与XML或HTML原生文档中的Tag相同,比如<title>The Dormo
阅读全文
posted @
2018-01-22 18:21
paulversion
阅读(160)
推荐(0) 编辑
python 正则
摘要:可以下载一个正则表达式工具Match Tracer 常见的元字符 . 匹配除换行符以外的任意字符 \b 匹配单词的开始或结束 \d 匹配数字 \w 匹配字母、数字、下划线或汉子 \s 匹配任意空白符, 包括空格、制表符、换行符、中文全角空格等 ^ 匹配字符串的开始 $ 匹配字符串的结束 假如一行文本
阅读全文
posted @
2018-01-22 14:45
paulversion
阅读(148)
推荐(0) 编辑
python udp
摘要:tcp通信需要一个建立可靠连接的过程,而且通信双方以流的形式发送数据。相对于TCP,UDP则是面向无连接的协议。使用UDP协议时,不需要建立连接,只需要知道对方的IP地址和端口,就可以直接发数据包,并不关心是否能到达目的端。虽然用UDP传输数据不可靠,但是由于它没有建立连接的过程,速度比TCP快得多
阅读全文
posted @
2018-01-19 15:07
paulversion
阅读(210)
推荐(0) 编辑
python tcp
摘要:tcp服务器端: 创建和运行TCP服务端一般需要五个步骤: 1:创建Socket对象,绑定Socket到本地ip与端口(bind) 2:开始监听连接(listen) 3:进入循环,不断接收客户端的连接请求(accept) 4:接收传来的数据,并发送给对方数据(recv,send()) 5:传输完毕后
阅读全文
posted @
2018-01-19 14:34
paulversion
阅读(136)
推荐(0) 编辑
python cPickle和pickle 序列化
摘要:在Python中提供了两个模块:cPickle和pickle来实现序列化,前者是由C语言编写的,效率比后者高很多,一般编写程序的时候,采取的方案是先导入cPickle模块,如果此模块不存在,再导入pickle模块 try : import cPickle as pickle except Impor
阅读全文
posted @
2018-01-19 10:23
paulversion
阅读(181)
推荐(0) 编辑
python 操作文件和目录
摘要:import os dir = os.getcwd();#获取当前Python脚本工作的目录路径 file_list = os.listdir('e:\\')#返回e盘下的所以文件(列表类型)(目录名和文件名) os.remove(r'e:\a.txt') #删除指定路径下的文件 os.remove
阅读全文
posted @
2018-01-18 18:41
paulversion
阅读(158)
推荐(0) 编辑
python 线程(thread)
摘要:#coding:utf-8#多线程#Python的标准库提供了两个模块:thread和threading,thread是低级模块,threading是高级模块,对thread进行了封装 #绝大数情况下,我们只需要使用threading这个高级模块#启动一个线程就是把一个函数传入并创建Thread实例
阅读全文
posted @
2018-01-18 15:09
paulversion
阅读(374)
推荐(0) 编辑