摘要:
上一章节中我们实现了对优酷单页面的爬取,简单进行回顾一下,使用HtmlAgilityPack库,对爬虫的爬取一共分为三步 爬虫步骤 加载页面 解析数据 保存数据 继第一篇文档后的爬虫进阶,本文章主要是对上一篇的进阶。实现的功能主要为: 1、爬取电影类别列表 2、循环每个类别的电影信息,对每个类别的信 阅读全文
摘要:
爬虫的制作主要分为三个方面 1、加载网页结构 2、解析网页结构,转变为符合需求的数据实体 3、保存数据实体(数据库,文本等) 在实际的编码过程中,找到了一个好的类库“HtmlAgilityPack”。 介绍: 官网:http://html-agility-pack.net/?z=codeplex H 阅读全文