随笔分类 -  爬虫/网页解析

摘要:python对XML的解析 常见的XML编程接口有DOM和SAX,这两种接口处理XML文件的方式不同,当然使用场合也不同。 python有三种方法解析XML,SAX,DOM,以及ElementTree: 1.SAX (simple API for XML ) python 标准库包含SAX解析器,S 阅读全文
posted @ 2018-07-08 17:56 morein2008 阅读(421) 评论(0) 推荐(0) 编辑
摘要:用BeautifulSoup查找指定标签(元素)的时候,有几种方法: soup=BeautifulSoup(html) 1.soup.find_all(tagName),返回一个指定Tag元素的列表 2.soup.select(selector),返回一个指定Tag元素的列表,是非常好用的方法,它支 阅读全文
posted @ 2016-09-28 20:24 morein2008 阅读(944) 评论(0) 推荐(0) 编辑
摘要:当需要从网页上获取信息时,需要解析html页面。筛选指定标签,并获取其值是必不可少的操作,解析html页面这方面的利器,Python有BeautifulSoup,Java一直没有好的工具,之前的HtmlParser非常难用,虽能解析,但不能过滤,只能从头到尾地遍历各个节点,非常不便,而Jsoup是甚 阅读全文
posted @ 2016-03-28 17:45 morein2008 阅读(1894) 评论(0) 推荐(0) 编辑
摘要:url含有中文,进行编码: 引自: http://blog.csdn.net/xyw_blog/article/details/40187913 http://www.coder4.com/archives/4382 阅读全文
posted @ 2016-03-25 10:32 morein2008 阅读(984) 评论(0) 推荐(0) 编辑
摘要:如何获取指定的标签的内容是解析网页爬取数据的必要手段,比如想获取<div class='xxx'> ...<div>这样的div标签,通常有三种办法, 1)用字符串查找方法,然后切分字符串(或切片操作),如str.index(patternStr)或str.find(patternStr),这种方法 阅读全文
posted @ 2016-03-23 16:23 morein2008 阅读(34313) 评论(0) 推荐(2) 编辑
摘要:今天遇到一个正则表达式 regex = '<div class="div_result[\s\S]+?>([\s\S]+)</div>'我原以为将其与网页内容进行匹配之后会获得形如<div class="div_result...</div>这样的完整字符串,但结果只获取了<div></div>之间 阅读全文
posted @ 2016-03-21 21:16 morein2008 阅读(678) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示