爬虫/网页解析 - 随笔分类 - morein2008

Python读写xml

摘要：python对XML的解析常见的XML编程接口有DOM和SAX，这两种接口处理XML文件的方式不同，当然使用场合也不同。 python有三种方法解析XML，SAX，DOM，以及ElementTree: 1.SAX (simple API for XML ) python 标准库包含SAX解析器，S 阅读全文

posted @ 2018-07-08 17:56 morein2008 阅读(433) 评论(0) 推荐(0)

BeautifulSoup的选择器

摘要：用BeautifulSoup查找指定标签（元素）的时候，有几种方法： soup=BeautifulSoup(html) 1.soup.find_all(tagName)，返回一个指定Tag元素的列表 2.soup.select(selector)，返回一个指定Tag元素的列表，是非常好用的方法，它支阅读全文

posted @ 2016-09-28 20:24 morein2008 阅读(963) 评论(0) 推荐(0)

JSoup——用Java解析html网页内容

摘要：当需要从网页上获取信息时，需要解析html页面。筛选指定标签，并获取其值是必不可少的操作，解析html页面这方面的利器，Python有BeautifulSoup，Java一直没有好的工具，之前的HtmlParser非常难用，虽能解析，但不能过滤，只能从头到尾地遍历各个节点，非常不便，而Jsoup是甚阅读全文

posted @ 2016-03-28 17:45 morein2008 阅读(1942) 评论(0) 推荐(0)

urllib2加入header及解决中文乱码问题

摘要：url含有中文，进行编码：引自: http://blog.csdn.net/xyw_blog/article/details/40187913 http://www.coder4.com/archives/4382 阅读全文

posted @ 2016-03-25 10:32 morein2008 阅读(1000) 评论(0) 推荐(0)

BeautifulSoup获取指定class样式的div

摘要：如何获取指定的标签的内容是解析网页爬取数据的必要手段，比如想获取<div class='xxx'> ...<div>这样的div标签，通常有三种办法， 1）用字符串查找方法,然后切分字符串（或切片操作），如str.index(patternStr)或str.find(patternStr)，这种方法阅读全文

posted @ 2016-03-23 16:23 morein2008 阅读(34417) 评论(0) 推荐(2)

正则表达式的括号与贪婪匹配

摘要：今天遇到一个正则表达式 regex = '<div class="div_result[\s\S]+?>([\s\S]+)</div>'我原以为将其与网页内容进行匹配之后会获得形如<div class="div_result...</div>这样的完整字符串，但结果只获取了<div></div>之间阅读全文

posted @ 2016-03-21 21:16 morein2008 阅读(689) 评论(0) 推荐(0)

morein2008

随笔分类 - 爬虫/网页解析

公告