爬虫技术 - 随笔分类 - lmei

总结整理 -- 爬虫技术（C#版）

摘要：爬虫技术学习总结爬虫技术 -- 基础学习（一）HTML规范化（附特殊字符编码表）爬虫技术 -- 基本学习（二）爬虫基本认知爬虫技术 -- 基础学习（三）理解URL和URI的联系与区别爬虫技术 -- 基础学习（四）HtmlParser基本认识爬虫技术 -- 基础学习（五）解决页面编码识别（附阅读全文

posted @ 2016-04-04 13:05 lmei 阅读(4960) 评论(0) 推荐(0)

爬虫技术 -- 进阶学习（十一）【补充】获取html中meta标签中的content的内容

摘要：上一篇网易新闻页面信息抓取 -- htmlagilitypack搭配scrapysharp中提及了很多如何快速抓取html中的文本的语句，但是meta标签中的content内容的抓取，没有提及到！上网搜索了下，发现很少提及，所以写篇随笔，备忘一下！还是在HtmlAgillityPack搭配Sc 阅读全文

posted @ 2014-04-21 15:38 lmei 阅读(6460) 评论(0) 推荐(0)

爬虫技术 -- 进阶学习（十）网易新闻页面信息抓取（htmlagilitypack搭配scrapysharp）

摘要：最近在弄网页爬虫这方面的，上网看到关于htmlagilitypack搭配scrapysharp的文章，于是决定试一试~ 于是到https://www.nuget.org/packages/ScrapySharp去看看，看到这句下载提示：To install ScrapySharp, run the 阅读全文

posted @ 2014-04-13 22:37 lmei 阅读(6480) 评论(12) 推荐(7)

爬虫技术 -- 进阶学习（九）使用HtmlAgilityPack获取页面链接（附c#代码及插件下载）

摘要：菜鸟HtmlAgilityPack初体验。。。弱弱的代码。。。 Html Agility Pack是一个开源项目，为网页提供了标准的DOM API和XPath导航。使用WebBrowser和HttpWebRequest下载的网页可以用Html Agility Pack来解析。 HtmlAgility 阅读全文

posted @ 2014-01-10 16:08 lmei 阅读(7207) 评论(0) 推荐(0)

爬虫技术 -- 进阶学习（八）模拟简单浏览器（附c#代码）

摘要：由于最近在做毕业设计，需要用到一些简单的浏览器功能，于是学习了一下，顺便写篇博客~~大牛请勿喷，菜鸟练练手~ 实现界面如下：（简单朴素版@_@||） button_go实现如下： button_back实现如下：点击一个新的链接时，会弹出新的窗口，默认是ie浏览器打开，应该使它还在此界面显示，而不阅读全文

posted @ 2014-01-09 22:50 lmei 阅读(4132) 评论(0) 推荐(1)

爬虫技术 -- 进阶学习（七）简单爬虫抓取示例（附c#代码）

摘要：这是我的第一个爬虫代码。。。算是一份测试版的代码。大牛大神别喷。。。通过给定一个初始的地址startPiont然后对网页进行捕捉，然后通过正则表达式对网址进行匹配。 List<string> todo ：进行抓取的网址的集合 List<string> visited ：已经访问过的网址的集合下面阅读全文

posted @ 2013-12-21 23:59 lmei 阅读(5216) 评论(0) 推荐(0)

爬虫技术 -- 基础学习（六）解析相对地址

摘要：在HTML网页中经常使用相对URL。绝对URL是不依赖其他URL路径。在一定的上下文环境可以使用相对URL。网页中的相对URL的形式如：“./index.html”。可以在<A>和<img>标签中使用相对URL。如：<img src = "../images/a.gif" />。那么如何把相对UR 阅读全文

posted @ 2013-12-14 16:21 lmei 阅读(1305) 评论(0) 推荐(0)

爬虫技术 -- 基础学习（五）解决页面编码识别（附c#代码）

摘要：实现从Web网页提取文本之前，首先要识别网页的编码，有时候还需要进一步识别网页所使用的语言。因为同一种编码可能对应多种语言，例如UTF-8编码可能对应英文或中文等语言。识别编码整体流程如下：（1）从WEB服务器返回的content type头信息中提取编码，如果是GB2312的编码要当GBK处理阅读全文

posted @ 2013-12-14 15:53 lmei 阅读(2004) 评论(1) 推荐(1)

爬虫技术 -- 基础学习（四）HtmlParser基本认识

摘要：利用爬虫技术获取网页源代码后，针对网页抽取出它的特定文本内容，利用正则表达式和抽取工具，能够更好地抽取这些内容。下面介绍一种抽取工具 -- HtmlParser HtmlParser是一个用来解析HTML文件的java包，主要用于转换、抽取两个方面。利用HtmlParser可以实现下面内容的抽取阅读全文

posted @ 2013-12-11 14:31 lmei 阅读(1424) 评论(2) 推荐(1)

爬虫技术 -- 基础学习（三）理解URL和URI的联系与区别

摘要：网络爬虫的基本操作是抓取网页。首先要了解下URL~~ 在理解URL之前，先了解下URI，这两个概念我曾经混淆过~@_@|| 什么是URI? Web上每种可用的资源，如：html文档、视频，图片等都由一个通用的资源标志符（Universal Resources Identifier，即URI）进行定位阅读全文

posted @ 2013-12-11 13:54 lmei 阅读(1476) 评论(0) 推荐(0)

爬虫技术 -- 基本学习（二）爬虫基本认知

摘要：爬虫策略：网页抓取策略分为三种：深度优先、广度优先和最佳优先。爬虫的行为策略：（1）选择策略：选择要下载的页面。（2）重新访问策略：页面什么时候会更新。（3）并行策略：通过分布式抓取获得更好效果。爬虫的组成：在网络爬虫的系统框架中，主要由控制器、解析器、资源库三个部分组成。控制器：主阅读全文

posted @ 2013-12-07 22:44 lmei 阅读(1497) 评论(0) 推荐(0)

爬虫技术 -- 基础学习（一）HTML规范化（附特殊字符编码表）

摘要：最近在做网页信息提取这方面的，由于没接触过这系列的知识点，所以逛博客，看文档~~看着finallyly大神的博文和文档，边看边学习边总结~~ 对网站页面进行信息提取，需要进行页面解析，解析的方法有以下几种： 1、利用HTML标记的分布规律进行解析 2、利用HTML标记间的关系进行解析 3、利用页面的阅读全文

posted @ 2013-12-05 17:04 lmei 阅读(2299) 评论(0) 推荐(0)

随笔分类 - 爬虫技术

公告