2013 年 12月 11 日随笔档案 - lmei

2013年12月11日

摘要：利用爬虫技术获取网页源代码后，针对网页抽取出它的特定文本内容，利用正则表达式和抽取工具，能够更好地抽取这些内容。下面介绍一种抽取工具 -- HtmlParser HtmlParser是一个用来解析HTML文件的java包，主要用于转换、抽取两个方面。利用HtmlParser可以实现下面内容的抽取阅读全文

posted @ 2013-12-11 14:31 lmei 阅读(1395) 评论(2) 推荐(1) 编辑

爬虫技术 -- 基础学习（三）理解URL和URI的联系与区别

摘要：网络爬虫的基本操作是抓取网页。首先要了解下URL~~ 在理解URL之前，先了解下URI，这两个概念我曾经混淆过~@_@|| 什么是URI? Web上每种可用的资源，如：html文档、视频，图片等都由一个通用的资源标志符（Universal Resources Identifier，即URI）进行定位阅读全文

posted @ 2013-12-11 13:54 lmei 阅读(1420) 评论(0) 推荐(0) 编辑

公告