随笔分类 - 网络采集软件核心技术剖析系列
网络采集软件核心技术剖析系列
摘要:自己开发的豆约翰博客备份专家软件工具问世3年多以来,深受广大博客写作和阅读爱好者的喜爱。同时也不乏一些技术爱好者咨询我,这个软件里面各种实用的功能是如何实现的。该软件使用.NET技术开发,为回馈社区,现将该软件中用到的核心技术,开辟一个专栏,写一个系列文章,以飨广大技术爱好者。本系列文章除了讲解网络...
阅读全文
摘要:一 本系列随笔概览及产生的背景自己开发的豆约翰博客备份专家软件工具问世3年多以来,深受广大博客写作和阅读爱好者的喜爱。同时也不乏一些技术爱好者咨询我,这个软件里面各种实用的功能是如何实现的。该软件使用.NET技术开发,为回馈社区,现将该软件中用到的核心技术,开辟一个专栏,写一个系列文章,以飨广大技术...
阅读全文
摘要:这个简单框架,主要有3个比较重要的地方:
1.树形控件节点的递归加载;
2.右边tab窗体的创建(主要利用了大名鼎鼎的WeifenLuo.WinFormsUI.Docking.dll);
3.点击树形节点,打开新窗口(前2者的结合)。
阅读全文
摘要:与上节的demo不同在于,上节我们得到的某个博主的全部博文被保存在DataTable(内存)中,程序关闭后,全部下载下来的博文全都没了,下次还需要重新下载,这样明显不好。
这次我们将下载的博文存在sqlite数据库中,每新增一个博主,程序会自动在执行文件所在的文件夹下的WebSiteDB子目录中创建一个以博主ID命名的.db文件,该数据库是sqlite数据库。
程序加载的时候会自动去执行文件所在的文件夹下的WebSiteDB子目录扫描,在ComboBox下拉中列出扫描到数据库名字,点击某一个下拉项,程序自动加载该数据库中的文章表中的全部数据到DataGridView显示,点击DataGridView的某一项,可以在下部的WebBrower中浏览网页。
阅读全文
摘要:本节我们提供了一个示例将本系列中的第一节和第二节的内容综合到一起,实现下载博客园任意博主的全部博文功能。用户只要在编辑框中输入博客园任意博主的ID,该博主的全部文章就会被下载到内存中,我们本节就来剖析一下实现原理。
总体步骤如下:
1.用分页地址初始化Url队列(其实是一个堆栈数据结构),具体请参考本系列第一节内容;
2.调度器不断从Url队列中取得url,从网上获取该url对应的网页正文;
3.多线程的网页爬虫分析下载到的网页正文是链接提取页还是文章正文页;
(1)若为链接提取页面,则提取全部符合规则的文章链接,然后压入到前面的Url队列中(其实是堆栈操作,这里可以理解为,一个分页页面地址换取了几十个文章链接地址,接下来调度器将取得的链接是这几十个文章链接地址,全部下载完,存储到数据存储后,接下来才会轮到取第二个分页页面,这点大家可以对照提供的代码自行理解,此处是网络爬虫的精髓)。
(2)若为文章正文页,则按照正文css路径,提取出正文,存储到数据存储中(本节为datatable中),具体可参考本系列第二节内容。
4.递归的执行第2步和第3步,直
阅读全文
摘要:本节示例代码的运行界面如下图所示。点击生成PDF按钮后,程序做了3件事情:
(1)下载网页地址中博文的正文;
(2)下载博文中的全部图片到本地;
(3)将文字和图片用后面所说的工具生成为PDF文档。
阅读全文
摘要:下载博文中的全部图片可以分解成3步:
1.下载网页正文,找出其中的全部图片链接地址;
2.对于每一个图片链接地址,下载该图片到本地(起一个文件名),同时替换原来的图片地址为我们刚刚起的文件名;
3.第二步全部图片下载完成后,将所有图片链接替换后的网页正文保存为一个新的html文件(index.html)。
接下来我们就一步一步来看一下如何做:
阅读全文
摘要:本系列开篇受到大家的热烈欢迎,这对博主是莫大的鼓励,此为本系列第二篇,希望大家继续支持,为我继续写作提供动力。
自己开发的豆约翰博客备份专家软件工具问世3年多以来,深受广大博客写作和阅读爱好者的喜爱。同时也不乏一些技术爱好者咨询我,这个软件里面各种实用的功能是如何实现的。
该软件使用.NET技术开发,为回馈社区,现将该软件中用到的核心技术,开辟一个专栏,写一个系列文章,以飨广大技术爱好者。
本系列文章除了讲解网络采编发用到的各种重要技术之外,也提供了不少问题的解决思路和界面开发的编程经验,非常适合.NET开发的初级,中级读者,希望大家多多支持。
很多初学者常有此类困惑,“为什么我书也看了,C#相关的各个方面的知识都有所了解,但就是没法写出一个像样的应用呢?”,
这其实还是没有学会综合运用所学知识,锻炼出编程思维,建立起学习兴趣,我想该系列文章也许会帮到您,但愿如此。
阅读全文
摘要:本系列文章除了讲解网络采编发用到的各种重要技术之外,也提供了不少问题的解决思路和界面开发的编程经验,非常适合.NET开发的初级,中级读者,希望大家多多支持。
开发环境:VS2008
源码位置:https://github.com/songboriceboy/NetworkGatherEditPublish
源码下载办法:安装SVN客户端(本文最后提供下载地址),然后checkout以下的地址:https://github.com/songboriceboy/NetworkGatherEditPublish
系列文章提纲拟定如下:
1.如何使用C#语言获取博客园某个博主的全部随笔链接及标题;
2.如何使用C#语言获得博文的内容;
3.使用C#语言如何将html网页转换成pdf(html2pdf)
4.如何使用C#语言下载博文中的全部图片到本地并可以离线浏览
5.如何使用C#语言合成多个单个的pdf文件到一个pdf中,并生成目录
6.网易博客的链接如何使用C#语言获取到,网易博客的特殊性;
7.微信公众号文章如何使用C#语言下载;
8.如何获取任意一篇文章的
阅读全文