随笔分类 -  爬虫技术

摘要:爬虫技术学习总结 爬虫技术 -- 基础学习(一)HTML规范化(附特殊字符编码表) 爬虫技术 -- 基本学习(二)爬虫基本认知 爬虫技术 -- 基础学习(三)理解URL和URI的联系与区别 爬虫技术 -- 基础学习(四)HtmlParser基本认识 爬虫技术 -- 基础学习(五)解决页面编码识别(附 阅读全文
posted @ 2016-04-04 13:05 lmei 阅读(4367) 评论(0) 推荐(0) 编辑
摘要:上一篇网易新闻页面信息抓取 -- htmlagilitypack搭配scrapysharp中提及了很多如何快速抓取html中的文本的语句, 但是meta标签中的content内容的抓取,没有提及到! 上网搜索了下,发现很少提及,所以写篇随笔,备忘一下! 还是在HtmlAgillityPack搭配Sc 阅读全文
posted @ 2014-04-21 15:38 lmei 阅读(6414) 评论(0) 推荐(0) 编辑
摘要:最近在弄网页爬虫这方面的,上网看到关于htmlagilitypack搭配scrapysharp的文章,于是决定试一试~ 于是到https://www.nuget.org/packages/ScrapySharp去看看, 看到这句下载提示:To install ScrapySharp, run the 阅读全文
posted @ 2014-04-13 22:37 lmei 阅读(6421) 评论(12) 推荐(7) 编辑
摘要:菜鸟HtmlAgilityPack初体验。。。弱弱的代码。。。 Html Agility Pack是一个开源项目,为网页提供了标准的DOM API和XPath导航。使用WebBrowser和HttpWebRequest下载的网页可以用Html Agility Pack来解析。 HtmlAgility 阅读全文
posted @ 2014-01-10 16:08 lmei 阅读(7159) 评论(0) 推荐(0) 编辑
摘要:由于最近在做毕业设计,需要用到一些简单的浏览器功能,于是学习了一下,顺便写篇博客~~大牛请勿喷,菜鸟练练手~ 实现界面如下:(简单朴素版@_@||) button_go实现如下: button_back实现如下: 点击一个新的链接时,会弹出新的窗口,默认是ie浏览器打开,应该使它还在此界面显示,而不 阅读全文
posted @ 2014-01-09 22:50 lmei 阅读(4093) 评论(0) 推荐(1) 编辑
摘要:这是我的第一个爬虫代码。。。算是一份测试版的代码。大牛大神别喷。。。 通过给定一个初始的地址startPiont然后对网页进行捕捉,然后通过正则表达式对网址进行匹配。 List<string> todo :进行抓取的网址的集合 List<string> visited :已经访问过的网址的集合 下面 阅读全文
posted @ 2013-12-21 23:59 lmei 阅读(5142) 评论(0) 推荐(0) 编辑
摘要:在HTML网页中经常使用相对URL。绝对URL是不依赖其他URL路径。在一定的上下文环境可以使用相对URL。网页中的相对URL的形式如:“./index.html”。可以在<A>和<img>标签中使用相对URL。如:<img src = "../images/a.gif" />。 那么如何把相对UR 阅读全文
posted @ 2013-12-14 16:21 lmei 阅读(1282) 评论(0) 推荐(0) 编辑
摘要:实现从Web网页提取文本之前,首先要识别网页的编码,有时候还需要进一步识别网页所使用的语言。因为同一种编码可能对应多种语言,例如UTF-8编码可能对应英文或中文等语言。 识别编码整体流程如下: (1)从WEB服务器返回的content type头信息中提取编码,如果是GB2312的编码要当GBK处理 阅读全文
posted @ 2013-12-14 15:53 lmei 阅读(1946) 评论(1) 推荐(1) 编辑
摘要:利用爬虫技术获取网页源代码后,针对网页抽取出它的特定文本内容,利用正则表达式和抽取工具,能够更好地抽取这些内容。 下面介绍一种抽取工具 -- HtmlParser HtmlParser是一个用来解析HTML文件的java包,主要用于转换、抽取两个方面。 利用HtmlParser可以实现下面内容的抽取 阅读全文
posted @ 2013-12-11 14:31 lmei 阅读(1397) 评论(2) 推荐(1) 编辑
摘要:网络爬虫的基本操作是抓取网页。首先要了解下URL~~ 在理解URL之前,先了解下URI,这两个概念我曾经混淆过~@_@|| 什么是URI? Web上每种可用的资源,如:html文档、视频,图片等都由一个通用的资源标志符(Universal Resources Identifier,即URI)进行定位 阅读全文
posted @ 2013-12-11 13:54 lmei 阅读(1425) 评论(0) 推荐(0) 编辑
摘要:爬虫策略: 网页抓取策略分为三种:深度优先、广度优先和最佳优先。 爬虫的行为策略: (1)选择策略:选择要下载的页面。 (2)重新访问策略:页面什么时候会更新。 (3)并行策略:通过分布式抓取获得更好效果。 爬虫的组成: 在网络爬虫的系统框架中,主要由控制器、解析器、资源库三个部分组成。 控制器:主 阅读全文
posted @ 2013-12-07 22:44 lmei 阅读(1468) 评论(0) 推荐(0) 编辑
摘要:最近在做网页信息提取这方面的,由于没接触过这系列的知识点,所以逛博客,看文档~~看着finallyly大神的博文和文档,边看边学习边总结~~ 对网站页面进行信息提取,需要进行页面解析,解析的方法有以下几种: 1、利用HTML标记的分布规律进行解析 2、利用HTML标记间的关系进行解析 3、利用页面的 阅读全文
posted @ 2013-12-05 17:04 lmei 阅读(2234) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示