python - 随笔分类 - paulversion

python xpath

摘要：article 选取article元素下的所有子元素 /article 选取根元素article html中根元素中根元素一般是html article/a 选取所有属于article的子元素的a元素 //div 选取所有div子元素 article//div 获取article元素下的所有div元阅读全文

posted @ 2019-09-22 16:46 paulversion 阅读(154) 评论(0) 推荐(0)

scrapy的使用

摘要：pip install scrapy 下载scrapy scrapy startproject 项目名称创建要抓取的网站的基本模板的生成 scrapy genspider cnblogs news.cnblogs.com cnblogs 为模板名称 news.cnblogs.com为要抓取网站的域阅读全文

posted @ 2019-09-22 11:22 paulversion 阅读(171) 评论(0) 推荐(0)

python 正则表达式特殊字符

摘要：字符描述 \ 将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如，'n' 匹配字符 "n"。'\n' 匹配一个换行符。序列 '\\' 匹配 "\" 而 "\(" 则匹配 "("。 ^ 匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multilin 阅读全文

posted @ 2019-09-22 09:05 paulversion 阅读(10780) 评论(0) 推荐(1)

python scrapy

摘要：scrapy的安装 pip install Scrapy scrapy 常用命令 scrapy提供了两种类型的命令。一种必须在Scrapy项目中运行,是针对项目的命令;另外一种则不需要,属于全局命令全局命令: startproject 用法 scrapy startproject <project 阅读全文

posted @ 2018-02-02 16:41 paulversion 阅读(169) 评论(0) 推荐(0)

Python selenium

摘要：利用pip安装selenium 命令pip install selenium 我们用selenium写个小例子,功能是打开百度主页，在搜索框中输入网络爬虫,进行搜索。代码如下 #coding:utf-8from selenium import webdriverfrom selenium.webdr 阅读全文

posted @ 2018-02-02 11:21 paulversion 阅读(199) 评论(0) 推荐(0)

Python动态网站的抓取

摘要：网页下载器 # coding:utf-8import requestsimport urllib2import systype = sys.getfilesystemencoding()class HtmlDownloader(object): def download(slef, url): if 阅读全文

posted @ 2018-01-31 18:32 paulversion 阅读(293) 评论(0) 推荐(0)

Python 使用MySQL

摘要：在导入MySQLdb之前,需要安装MySQLdb模块。使用pip安装,命令如下: pip install MySQL-python 安装成功后，导入MySQLdb模块 import MySQLdb 连接数据库阅读全文

posted @ 2018-01-31 11:32 paulversion 阅读(164) 评论(0) 推荐(0)

Python简单分布式爬虫

摘要：分布式爬虫采用主从模式。主从模式是指由一台主机作为控制节点，负责管理所有运行网络爬虫的主机(url管理器,数据存储器,控制调度器)，爬虫只需要从控制节点哪里接收任务，并把新生成任务提交给控制节点。此次使用三台主机进行分布式爬取,一台主机作为控制节点，另外两台主机作为爬虫节点。控制节点主要分为url 阅读全文

posted @ 2018-01-30 17:34 paulversion 阅读(261) 评论(0) 推荐(0)

Python 基础爬虫架构

摘要：基础爬虫框架主要包括五大模块,分别为爬虫调度器、url管理器、HTML下载器、HTML解析器、数据存储器。 1:爬虫调度器主要负责统筹其他四个模块的协调工作 2: URL管理器负责管理URL连接，维护已经爬取的URL集合和未爬取的URL集合,提供获取新URL链接的接口 3: HTML下载器用于从UR 阅读全文

posted @ 2018-01-24 18:30 paulversion 阅读(814) 评论(0) 推荐(0)

Python 邮箱

摘要：#coding:utf-8from email.header import Headerfrom email.mime.text import MIMETextfrom email.utils import parseaddr,formataddrimport smtplib def _fromat 阅读全文

posted @ 2018-01-24 15:44 paulversion 阅读(243) 评论(0) 推荐(0)

Python 抓取图片

摘要：#coding:utf-8from bs4 import BeautifulSoupimport requestsimport urllib user_agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTM 阅读全文

posted @ 2018-01-23 18:25 paulversion 阅读(252) 评论(0) 推荐(0)

Python将数据保存到CSV中

摘要：#coding:utf-8import csv headers = ['ID','UserName','Password','Age','Country'] rows = [(1001,'qiye','qiye_pass',24,'China'), (1002,'Mary','Mary_pass', 阅读全文

posted @ 2018-01-23 17:04 paulversion 阅读(49653) 评论(0) 推荐(0)

Python 爬取盗墓笔记的标题,章节,章节名称

摘要：# coding:utf-8import requestsimport jsonfrom bs4 import BeautifulSoup user_agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML 阅读全文

posted @ 2018-01-23 16:33 paulversion 阅读(624) 评论(0) 推荐(0)

Python beautifulSoup

摘要：BeautifulSoup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag、NavigableString、BeautifulSoup 、Comment Tag对象与XML或HTML原生文档中的Tag相同,比如<title>The Dormo 阅读全文

posted @ 2018-01-22 18:21 paulversion 阅读(174) 评论(0) 推荐(0)

python 正则

摘要：可以下载一个正则表达式工具Match Tracer 常见的元字符 . 匹配除换行符以外的任意字符 \b 匹配单词的开始或结束 \d 匹配数字 \w 匹配字母、数字、下划线或汉子 \s 匹配任意空白符, 包括空格、制表符、换行符、中文全角空格等 ^ 匹配字符串的开始 $ 匹配字符串的结束假如一行文本阅读全文

posted @ 2018-01-22 14:45 paulversion 阅读(156) 评论(0) 推荐(0)

python udp

摘要：tcp通信需要一个建立可靠连接的过程,而且通信双方以流的形式发送数据。相对于TCP,UDP则是面向无连接的协议。使用UDP协议时,不需要建立连接,只需要知道对方的IP地址和端口,就可以直接发数据包,并不关心是否能到达目的端。虽然用UDP传输数据不可靠，但是由于它没有建立连接的过程,速度比TCP快得多阅读全文

posted @ 2018-01-19 15:07 paulversion 阅读(220) 评论(0) 推荐(0)

python tcp

摘要：tcp服务器端: 创建和运行TCP服务端一般需要五个步骤: 1:创建Socket对象,绑定Socket到本地ip与端口(bind) 2:开始监听连接(listen) 3:进入循环,不断接收客户端的连接请求(accept) 4:接收传来的数据,并发送给对方数据(recv,send()) 5:传输完毕后阅读全文

posted @ 2018-01-19 14:34 paulversion 阅读(150) 评论(0) 推荐(0)

python cPickle和pickle 序列化

摘要：在Python中提供了两个模块:cPickle和pickle来实现序列化,前者是由C语言编写的,效率比后者高很多,一般编写程序的时候,采取的方案是先导入cPickle模块,如果此模块不存在,再导入pickle模块 try : import cPickle as pickle except Impor 阅读全文

posted @ 2018-01-19 10:23 paulversion 阅读(188) 评论(0) 推荐(0)

python 操作文件和目录

摘要：import os dir = os.getcwd();#获取当前Python脚本工作的目录路径 file_list = os.listdir('e:\\')#返回e盘下的所以文件(列表类型)(目录名和文件名) os.remove(r'e:\a.txt') #删除指定路径下的文件 os.remove 阅读全文

posted @ 2018-01-18 18:41 paulversion 阅读(172) 评论(0) 推荐(0)

python 线程(thread)

摘要：#coding:utf-8#多线程#Python的标准库提供了两个模块:thread和threading,thread是低级模块,threading是高级模块，对thread进行了封装 #绝大数情况下,我们只需要使用threading这个高级模块#启动一个线程就是把一个函数传入并创建Thread实例阅读全文

posted @ 2018-01-18 15:09 paulversion 阅读(397) 评论(0) 推荐(0)

随笔分类 - python