pyhon---信息的爬取与提取---bs4，BeautifulSoup，re库

pyhont---信息的爬取与提取---bs4，BeautifulSoup，re库用于对获取到的页面文本进行提取

一、BeautifulSoup库的理解：BeautifulSoup库是解析、遍历、维护"标签树"的功能库。
二、BeautifulSoup类的基本元素
　　1、Tag：标签，最基本的信息组织单元，分别使用<></>标明开头和结尾多个同类标签只访问第一个标签
　　　　1）Name：标签的名字，<p>...</p>的名字是p,格式：<tag>.name
　　　　2）Attributes :标签的属性，字典形式的组织，格式:<tag>.attrs
　　　　3）NavigableString:标签内非属性字符串，格式:<tag>.string
　　　　4）Comment:标签内字符串的注释部分，一种特殊的Comment类型用.string注释内容也会显示

三、基于bs4库的遍历HTML方法：下行遍历，上行遍历，平行遍历
　　1、标签树的下行遍历属性：
　　　　1）.contents 子结点的列表，将<tag>的所有儿子节点存入列表
　　　　2）.children 子节点的迭代类型，与contents类似，用于循环遍历儿子节点 //只能for，in中
　　　　3）.descendants 子孙节点的迭代类型，包含所有子孙结点，用于循环遍历
　　2、标签树的上行遍历的属性：
　　　　1）.parent 节点的父亲标签
　　　　2）.parents 节点先辈的迭代类型，用于循环遍历先辈节点
　　3、标签的平行遍历属性：（平行遍历发生在同一个父节点下的各节点间）
　　　　1）.next_sibling 返回按照HTML文本顺序的下一个平行节点标签
　　　　2）.previous_sibling 回按照HTML文本顺序的上一个平行标签
　　　　3）.next_siblings 迭代类型，返回按照HTML文本顺序的后续所有平行节点标签
　　　　4）.previous_siblings 迭代类型，返回按照HTML文本顺序的前续所有平行节点标签

四、如何将HTML友好的显示：
　　bs4库的prettify()方法：
　　　　该函数可在HTML每个标签后加'\n'
　　　　该函数也可以应用于tag中

五、信息标记一般类型种类：xml，json，yaml

六、信息提取的一般方法：
　　1、完整解析信息的标记形式，在提取关键信息
　　2、无视标记形式，直接搜索信息对信息的文本查找函数即可
　　　　融合方法：结合形式解析与搜索方法，提取关键字 ...需要标记解析器及文本查找函数

七、beautifulsoup库对象的查找函数：
　　1、find_all(name,attrs,recursive,string,**kwargs) 返回一个列表类型，存储查找的结果
　　　　参数：name：对标签名称的检索字符串，可以使用列表查找多个标签，find_all(true)所有标签
　　　　　　　attrs：对标签属性值的检索字符串，可标注属性检索例如find_all('a','href')
　　　　　　　recursive:是否对子孙所有节点搜索，默认值为true，false则值查找当前节点儿子的信息　　　　
　　　　　　　string:<></>中字符串区域的检索字符串

　　<tag>(..)等价于<tag>.find_all(...)
　　soup(..)等价于soup.find_all(..)

　　2、拓展方法(参数均与find_all()相同)
　　　　find() 搜索且返回一个结果，字符串类型
　　　　find_parents() 在先辈节点中搜索，返回一个列表类型
　　　　find_parent() 在先辈节点中返回一个结果，字符串类型
　　　　find_next_siblings() 在后续平行节点搜索，返回列表类型
　　　　find_next_sibling()
　　　　find_previous_siblings()
　　　　find_previous_sibling() 在前序平行节点中返回一个结果，字符串类型

八、正则表达式：通用的字符串表达框架，判断某字符串的特征归属，用来简洁表达一组字符串的方式
　　　一般用于表达文本类型特征
　　　同时查找或替换一组字符串

　　　　匹配字符串的全部或部分（主要）

九、正则表达式的使用：

　　编译：将符合正则表达式语法的字符串转换正则表达式特征

　　正则表达式的语法：由字符与操作符组成

　　

十、正则表达式类型
　　　　raw string（原生字符串类型：不包含转义字符的字符串）表示为 r'text'
　　　　string 类型

十一、Re库主要用于字符串匹配

十二、Re库的主要功能函数
　　re.search(pattern,string,flag=0)在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象
　　re.match() 在一个字符串的开始位置起匹配正则表达式，返回match对象注意match为空
　　re.findall()搜索字符串，一列表类型返回全部能匹配的子串
　　re.split()将一个字符串按照正则表达式匹配结果进行分割，返回列表类型
　　re.finditer() 搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象
　　re.sub()在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串

　　re.compile(pattern,flags) 将正则表达式的字符串形式编译成正则表达式对象

十三、match对象
　　1、属性
　　　　1）string 待匹配文本
　　　　2）re 匹配时使用的pattern对象（正则表达式）
　　　　3）pos 正则表达式搜索文本的开始位置
　　　　4）endpos 正则表达式搜索文本的结束为止
　　2、方法
　　　　1）.group(0) 获得匹配后的字符串
　　　　2）.start() 匹配字符串在原始字符串的开始位置
　　　　3）.end() 匹配字符串在原始字符串的结束位置
　　　　4）.span() 返回（.start()，.end()）元组类型

posted @ 2017-12-02 22:23 bear_ge 阅读(2352) 评论(0) 收藏举报

刷新页面返回顶部

bear_ge

pyhon---信息的爬取与提取---bs4，BeautifulSoup，re库

公告