【爬虫】beautiful soup笔记（待填坑）

Beautiful Soup是一个第三方的网页解析的模块。其遵循的接口为Document Tree，将网页解析成为一个树形结构。

其使用步骤如下：

1、创建对象：根据网页的文档字符串

2、搜索节点：名称、属性、文字。

3、处理节点：

BeautifulSoup(文档字符串， 'html.parser' 解析器，from_encoding='utf8')

find_all(名称，属性，文字)：可以传入字符串也可以传入正则表达式。

node.name 名称

node['href'] 属性

node.get_text 文字

posted on 2017-05-27 14:26 yesuuu 阅读(215) 评论(0) 收藏举报

刷新页面返回顶部