采集博客园
今天ModestMT.Zou发布了DotnetSpider爬虫第二章节,内容简单明了,基本看懂了,于是想自己试试看,直接就拿博客园开刀了。
这里有最基本的使用方式,本文章不介绍
[开源 .NET 跨平台 数据采集 爬虫框架: DotnetSpider] [二] 最基本,最自由的使用方式
这里我已经从https://github.com/zlzforever/DotnetSpider上下载代码并编译通过
这里用的是VS2015,因为此项目有些C#6.0语法糖
首先,用VS2015新建一个控件台程序,命名为DotnetSpiderDemo
新建一个数据对象
1
2
3
4
5
6
7
8
9
10
|
public class Cnblog { public string Title { get ; set ; } public string Url { get ; set ; } public string Author { get ; set ; } public string Conter { get ; set ; } } |
先引用两个Dll类库
Java2Dotnet.Spider.Core.dll
Newtonsoft.Json.dll
如果你编译DotnetSpider成功的话,可以在output目录中找到
现在来写数据处理器,实现 IPageProcessor 这个接口
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
|
/// <summary> /// 页面列表处理器 /// </summary> public class PageListProcessor : IPageProcessor { public Site Site{ get ; set ; } public void Process(Page page) { var totalCnblogElements = page.Selectable.SelectList(Selectors.XPath( "//div[@class='post_item']" )).Nodes(); List<Cnblog> results = new List<Cnblog>(); foreach ( var cnblogElement in totalCnblogElements) { var cnblog = new Cnblog(); cnblog.Title = cnblogElement.Select(Selectors.XPath( ".//div[@class='post_item_body']/h3/a" )).GetValue(); cnblog.Url = cnblogElement.Select(Selectors.XPath( ".//div[@class='post_item_body']/h3" )).Links().GetValue(); cnblog.Author = cnblogElement.Select(Selectors.XPath( ".//div[@class='post_item_foot']/a[1]" )).GetValue(); results.Add(cnblog); } page.AddResultItem( "Result" , results); } } |
关于XPath,可以到这里学习http://www.w3school.com.cn/xpath/,我也是下午刚看了一遍,因为有XML/HTML基础,基本没压力
关于XPath表达式如何写,我觉得用谷歌审核元素就足够了,可以复制XPath。也有一款谷歌XPath插件,因我翻不了墙,就没安装。
如下图://*[@id="post_list"]/div[20]/div[2]/h3/a,然后再按需改改
数据存取
需要实现 IPipeline这个接口,然后你想保存到文件或数据库就自己选择
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
|
public class ListPipeline : IPipeline { private string _path; public ListPipeline( string path) { if ( string .IsNullOrEmpty(path)) { throw new Exception( "文件名不能为空!" ); } _path = path; if (!File.Exists(_path)) { File.Create(_path); } } public void Dispose() { } public void Process(ResultItems resultItems, ISpider spider) { lock ( this ) { foreach (Cnblog entry in resultItems.Results[ "Result" ]) { File.AppendAllText(_path, JsonConvert.SerializeObject(entry)); } } } |
接下来在Program的Main方法中写运行代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
|
class Program { static void Main( string [] args) { var site = new Site() { EncodingName = "UTF-8" }; for ( int i = 1; i <= 30; i++) //30页 { site.AddStartUrl( } Spider spider = Spider.Create(site, new PageListProcessor(), new QueueDuplicateRemovedScheduler()).AddPipeline( new ListPipeline( "test.json" )).SetThreadNum(2); //两个线程 spider.Run(); Console.Read(); } } |
这样每一页信息就被保存起来了,但到这里还没完,一般情况不仅仅是采集列表页,也会采集详细页,于是我又添加了两个类,暂时我是这样实现的,但感觉有点慢
添加页面详细数据处理器
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
|
/// <summary> /// 页面详细处理器 /// </summary> public class PageDetailProcessor : IPageProcessor { private Cnblog cnblog; public PageDetailProcessor(Cnblog _cnblog) { cnblog = _cnblog; } public Site Site { get ; set ; } public void Process(Page page) { cnblog.Conter=page.Selectable.Select(Selectors.XPath( "//*[@id='cnblogs_post_body']" )).GetValue(); page.AddResultItem( "detail" ,cnblog); } } |
再添加页面详细数据保存
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
|
public class DetailPipeline : IPipeline { private string path; public DetailPipeline( string _path) { if ( string .IsNullOrEmpty(_path)) { throw new Exception( "路径不能为空!" ); } path = _path; if (!Directory.Exists(_path)) { Directory.CreateDirectory(_path); } } public void Dispose() { } public void Process(ResultItems resultItems, ISpider spider) { Cnblog cnblog=resultItems.Results[ "detail" ]; FileStream fs=File.Create(path + "\\" + cnblog.Title + ".txt" ); byte [] bytes=UTF8Encoding.UTF8.GetBytes( "Url:" +cnblog.Url+Environment.NewLine+cnblog.Conter); fs.Write(bytes,0,bytes.Length); fs.Flush(); fs.Close(); } } |
修改ListPipeline这个类RequestDetail方法,我的想法是列表数据保存一次就请求一次详细页,然后再保存详细页
所有详细页都保存在details这个目录下
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
|
public class ListPipeline : IPipeline { private string _path; public ListPipeline( string path) { if ( string .IsNullOrEmpty(path)) { throw new Exception( "文件名不能为空!" ); } _path = path; if (!File.Exists(_path)) { File.Create(_path); } } public void Dispose() { } public void Process(ResultItems resultItems, ISpider spider) { lock ( this ) { foreach (Cnblog entry in resultItems.Results[ "Result" ]) { File.AppendAllText(_path, JsonConvert.SerializeObject(entry)); RequestDetail(entry); } } } /// <summary> /// 请求详细页 /// </summary> /// <param name="entry"></param> private static void RequestDetail(Cnblog entry) { ISpider spider; var site = new Site() {EncodingName = "UTF-8" }; site.AddStartUrl(entry.Url); spider = Spider.Create(site, new PageDetailProcessor(entry), new QueueDuplicateRemovedScheduler()) .AddPipeline( new DetailPipeline( "details" )) .SetThreadNum(1); spider.Run(); } } |
其它代码保持不变,运行程序,现在已经能保存详细页内容了
最后,程序运行下来没什么大问题,但就是在采集详细页时比较慢,我的想法是把所有详细页一起加到调度中心,然后开多个线程去运行,这个有待学习。
采集博客园
今天ModestMT.Zou发布了DotnetSpider爬虫第二章节,内容简单明了,基本看懂了,于是想自己试试看,直接就拿博客园开刀了。
这里有最基本的使用方式,本文章不介绍
[开源 .NET 跨平台 数据采集 爬虫框架: DotnetSpider] [二] 最基本,最自由的使用方式
这里我已经从https://github.com/zlzforever/DotnetSpider上下载代码并编译通过
这里用的是VS2015,因为此项目有些C#6.0语法糖
首先,用VS2015新建一个控件台程序,命名为DotnetSpiderDemo
新建一个数据对象
1
2
3
4
5
6
7
8
9
10
|
public class Cnblog { public string Title { get ; set ; } public string Url { get ; set ; } public string Author { get ; set ; } public string Conter { get ; set ; } } |
先引用两个Dll类库
Java2Dotnet.Spider.Core.dll
Newtonsoft.Json.dll
如果你编译DotnetSpider成功的话,可以在output目录中找到
现在来写数据处理器,实现 IPageProcessor 这个接口
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
|
/// <summary> /// 页面列表处理器 /// </summary> public class PageListProcessor : IPageProcessor { public Site Site{ get ; set ; } public void Process(Page page) { var totalCnblogElements = page.Selectable.SelectList(Selectors.XPath( "//div[@class='post_item']" )).Nodes(); List<Cnblog> results = new List<Cnblog>(); foreach ( var cnblogElement in totalCnblogElements) { var cnblog = new Cnblog(); cnblog.Title = cnblogElement.Select(Selectors.XPath( ".//div[@class='post_item_body']/h3/a" )).GetValue(); cnblog.Url = cnblogElement.Select(Selectors.XPath( ".//div[@class='post_item_body']/h3" )).Links().GetValue(); cnblog.Author = cnblogElement.Select(Selectors.XPath( ".//div[@class='post_item_foot']/a[1]" )).GetValue(); results.Add(cnblog); } page.AddResultItem( "Result" , results); } } |
关于XPath,可以到这里学习http://www.w3school.com.cn/xpath/,我也是下午刚看了一遍,因为有XML/HTML基础,基本没压力
关于XPath表达式如何写,我觉得用谷歌审核元素就足够了,可以复制XPath。也有一款谷歌XPath插件,因我翻不了墙,就没安装。
如下图://*[@id="post_list"]/div[20]/div[2]/h3/a,然后再按需改改
数据存取
需要实现 IPipeline这个接口,然后你想保存到文件或数据库就自己选择
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
|
public class ListPipeline : IPipeline { private string _path; public ListPipeline( string path) { if ( string .IsNullOrEmpty(path)) { throw new Exception( "文件名不能为空!" ); } _path = path; if (!File.Exists(_path)) { File.Create(_path); } } public void Dispose() { } public void Process(ResultItems resultItems, ISpider spider) { lock ( this ) { foreach (Cnblog entry in resultItems.Results[ "Result" ]) { File.AppendAllText(_path, JsonConvert.SerializeObject(entry)); } } } |
接下来在Program的Main方法中写运行代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
|
class Program { static void Main( string [] args) { var site = new Site() { EncodingName = "UTF-8" }; for ( int i = 1; i <= 30; i++) //30页 { site.AddStartUrl( } Spider spider = Spider.Create(site, new PageListProcessor(), new QueueDuplicateRemovedScheduler()).AddPipeline( new ListPipeline( "test.json" )).SetThreadNum(2); //两个线程 spider.Run(); Console.Read(); } } |
这样每一页信息就被保存起来了,但到这里还没完,一般情况不仅仅是采集列表页,也会采集详细页,于是我又添加了两个类,暂时我是这样实现的,但感觉有点慢
添加页面详细数据处理器
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
|
/// <summary> /// 页面详细处理器 /// </summary> public class PageDetailProcessor : IPageProcessor { private Cnblog cnblog; public PageDetailProcessor(Cnblog _cnblog) { cnblog = _cnblog; } public Site Site { get ; set ; } public void Process(Page page) { cnblog.Conter=page.Selectable.Select(Selectors.XPath( "//*[@id='cnblogs_post_body']" )).GetValue(); page.AddResultItem( "detail" ,cnblog); } } |
再添加页面详细数据保存
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
|
public class DetailPipeline : IPipeline { private string path; public DetailPipeline( string _path) { if ( string .IsNullOrEmpty(_path)) { throw new Exception( "路径不能为空!" ); } path = _path; if (!Directory.Exists(_path)) { Directory.CreateDirectory(_path); } } public void Dispose() { } public void Process(ResultItems resultItems, ISpider spider) { Cnblog cnblog=resultItems.Results[ "detail" ]; FileStream fs=File.Create(path + "\\" + cnblog.Title + ".txt" ); byte [] bytes=UTF8Encoding.UTF8.GetBytes( "Url:" +cnblog.Url+Environment.NewLine+cnblog.Conter); fs.Write(bytes,0,bytes.Length); fs.Flush(); fs.Close(); } } |
修改ListPipeline这个类RequestDetail方法,我的想法是列表数据保存一次就请求一次详细页,然后再保存详细页
所有详细页都保存在details这个目录下
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
|
public class ListPipeline : IPipeline { private string _path; public ListPipeline( string path) { if ( string .IsNullOrEmpty(path)) { throw new Exception( "文件名不能为空!" ); } _path = path; if (!File.Exists(_path)) { File.Create(_path); } } public void Dispose() { } public void Process(ResultItems resultItems, ISpider spider) { lock ( this ) { foreach (Cnblog entry in resultItems.Results[ "Result" ]) { File.AppendAllText(_path, JsonConvert.SerializeObject(entry)); RequestDetail(entry); } } } /// <summary> /// 请求详细页 /// </summary> /// <param name="entry"></param> private static void RequestDetail(Cnblog entry) { ISpider spider; var site = new Site() {EncodingName = "UTF-8" }; site.AddStartUrl(entry.Url); spider = Spider.Create(site, new PageDetailProcessor(entry), new QueueDuplicateRemovedScheduler()) .AddPipeline( new DetailPipeline( "details" )) .SetThreadNum(1); spider.Run(); } } |
其它代码保持不变,运行程序,现在已经能保存详细页内容了
最后,程序运行下来没什么大问题,但就是在采集详细页时比较慢,我的想法是把所有详细页一起加到调度中心,然后开多个线程去运行,这个有待学习。