随笔分类 -  解析-BeautifulSoup

摘要:盘大工商处字〔2017〕15号 营业执照信息 ... 阅读全文
posted @ 2017-08-17 14:27 道高一尺 阅读(400) 评论(0) 推荐(0) 编辑
摘要:Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快,推荐安装。 解析器使用方法优势劣势 Python标准库 BeautifulSoup(markup, 阅读全文
posted @ 2017-07-23 10:36 道高一尺 阅读(4693) 评论(0) 推荐(0) 编辑
摘要:1 html = """ 2 The Dormouse's story 3 4 The Dormouse's story 5 Once upon a time there were three little sisters; and their names were 6 , 7 Lacie and 8 Tillie; 9 and they lived at the botto... 阅读全文
posted @ 2017-05-15 10:06 道高一尺 阅读(304) 评论(0) 推荐(0) 编辑
摘要:我们在写css时,标签名不加任何修饰,类名前加 '.',id前加#,在这里我们也可以用类似的方法来筛选元素 用到的方法是soup.select(),返回类型list (1)通过标签名查找 (2)通过类名查找 (3)通过id名查找 (4)组合查找 组合查找即和写 class 文件时,标签名与类名、id 阅读全文
posted @ 2017-04-09 16:41 道高一尺 阅读(192) 评论(0) 推荐(0) 编辑
摘要:1、find_all(name,attrs,recursive,text,**kwargs) find_all()方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件 (1.1) name参数 可传入: (1)字符串。查找与字符串完整匹配的内容 (2)正则表达式。通过正则表达式的matc 阅读全文
posted @ 2017-04-09 15:50 道高一尺 阅读(254) 评论(0) 推荐(0) 编辑
摘要:1、直接子节点 (1) .contents tag的.contents属性可以讲tag的子节点以列表的方式输出,我们可以用列表索引的方式获取它的某一个yuansu >>> print(soup.head.contents) [<title>The Dormouse's story</title>] 阅读全文
posted @ 2017-04-08 15:41 道高一尺 阅读(898) 评论(0) 推荐(0) 编辑
摘要:BeautifulSoup将复杂的html文档转换成一个复杂的树形结构,每个节点都是python对象,所有的对象可归纳为4种 1、tag tag是什么,通俗点讲,就是html中的一个标签例如 <title>The Dormouse's story</title> <a class='sister' 阅读全文
posted @ 2017-04-08 12:40 道高一尺 阅读(513) 评论(0) 推荐(0) 编辑
摘要:BeautifulSoup的格式化输出函数: print(soup.prettify()) 阅读全文
posted @ 2017-04-08 11:40 道高一尺 阅读(1489) 评论(0) 推荐(0) 编辑
摘要:beautiful soup是一个可以从html或者xml文件中提取数据的python库,它能够通过你喜欢的转换器实现惯用的文档导航、查找、修改文档的方式。 beautiful soup 会帮你节省数小时甚至数天的工作时间。 beautiful soup的强大之处在于他能很方便地提取html或者xm 阅读全文
posted @ 2017-04-06 13:15 道高一尺 阅读(289) 评论(0) 推荐(0) 编辑
摘要:beautiful soup是一个可以从html或者xml文件中提取数据的python库,它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式,beautiful soup会帮你节省数小时甚至数天的工作时间。 阅读全文
posted @ 2017-04-03 16:31 道高一尺 阅读(159) 评论(0) 推荐(0) 编辑