解析-BeautifulSoup - 随笔分类 - 道高一尺

摘要：盘大工商处字〔2017〕15号营业执照信息 ... 阅读全文

posted @ 2017-08-17 14:27 道高一尺阅读(413) 评论(0) 推荐(0)

摘要：Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器，lxml 解析器更加强大，速度更快，推荐安装。解析器使用方法优势劣势 Python标准库 BeautifulSoup(markup, 阅读全文

posted @ 2017-07-23 10:36 道高一尺阅读(4775) 评论(0) 推荐(0)

BeautifulSoup重点复习

摘要：1 html = """ 2 The Dormouse's story 3 4 The Dormouse's story 5 Once upon a time there were three little sisters; and their names were 6 , 7 Lacie and 8 Tillie; 9 and they lived at the botto... 阅读全文

posted @ 2017-05-15 10:06 道高一尺阅读(313) 评论(0) 推荐(0)

css选择器

摘要：我们在写css时，标签名不加任何修饰，类名前加 '.'，id前加＃，在这里我们也可以用类似的方法来筛选元素用到的方法是soup.select()，返回类型list （1）通过标签名查找（2）通过类名查找（3）通过id名查找（4）组合查找组合查找即和写 class 文件时，标签名与类名、id 阅读全文

posted @ 2017-04-09 16:41 道高一尺阅读(202) 评论(0) 推荐(0)

搜索文档树

摘要：1、find_all(name,attrs,recursive,text,**kwargs) find_all()方法搜索当前tag的所有tag子节点，并判断是否符合过滤器的条件（1.1） name参数可传入：（1）字符串。查找与字符串完整匹配的内容（2）正则表达式。通过正则表达式的matc 阅读全文

posted @ 2017-04-09 15:50 道高一尺阅读(274) 评论(0) 推荐(0)

遍历文档树

摘要：1、直接子节点 (1)　.contents tag的.contents属性可以讲tag的子节点以列表的方式输出，我们可以用列表索引的方式获取它的某一个yuansu >>> print(soup.head.contents) [<title>The Dormouse's story</title>] 阅读全文

posted @ 2017-04-08 15:41 道高一尺阅读(914) 评论(0) 推荐(0)

四大对象种类

摘要：BeautifulSoup将复杂的html文档转换成一个复杂的树形结构，每个节点都是python对象，所有的对象可归纳为4种 1、tag tag是什么，通俗点讲，就是html中的一个标签例如 <title>The Dormouse's story</title> <a class='sister' 阅读全文

posted @ 2017-04-08 12:40 道高一尺阅读(529) 评论(0) 推荐(0)

格式化输出prettify()

摘要：BeautifulSoup的格式化输出函数: print(soup.prettify()) 阅读全文

posted @ 2017-04-08 11:40 道高一尺阅读(1513) 评论(0) 推荐(0)

beautiful soup

摘要：beautiful soup是一个可以从html或者xml文件中提取数据的python库，它能够通过你喜欢的转换器实现惯用的文档导航、查找、修改文档的方式。 beautiful soup 会帮你节省数小时甚至数天的工作时间。 beautiful soup的强大之处在于他能很方便地提取html或者xm 阅读全文

posted @ 2017-04-06 13:15 道高一尺阅读(301) 评论(0) 推荐(0)

beautiful soup

摘要：beautiful soup是一个可以从html或者xml文件中提取数据的python库，它能够通过你喜欢的转换器实现惯用的文档导航，查找，修改文档的方式，beautiful soup会帮你节省数小时甚至数天的工作时间。阅读全文

posted @ 2017-04-03 16:31 道高一尺阅读(183) 评论(0) 推荐(0)

道高一尺

随笔分类 - 解析-BeautifulSoup

公告