随笔 - 51  文章 - 0  评论 - 96  阅读 - 19万
12 2012 档案
基于htmlparser实现网页内容解析
摘要:网页解析,即程序自动分析网页内容、获取信息,从而进一步处理信息。网页解析是实现网络爬虫中不可缺少而且十分重要的一环,由于本人经验也很有限,我仅就我们团队开发基于关键词匹配和模板匹配的主题爬虫的经验谈谈如何实现网页解析。首先,必须说在最前的是我们使用的工具——htmlparser简要地说,htmlparser包提供方便、简洁的处理html文件的方法,它将html页面中的标签按树形结构解析成一个一个结点,一种类型的结点对应一个类,通过调用其方法可以轻松地访问标签中的内容。我所使用的是htmlparser2.0,也就是最新版本。强烈推荐。好,进入正题。对于主题爬虫,它的功能就是将与主题相关的网页下载 阅读全文
posted @ 2012-12-15 14:54 百年coding 阅读(49260) 评论(19) 推荐(5) 编辑
代码复审结果
摘要:我们进行的是对76er的代码进行审核。代码问题和优点有以下几点:1、有无用类,在整个工程中Url类,没有被用到,所以是一个无用的类,存在于代码中。public class Url { // 原始url的值,主机部分是域名 private String oriUrl; // url的值,主机部分是IP private String url; //URL NUM private int urlNo; // 获取URL返回的结果码 private int statusCode; // 此URL被别的文章引用的次数 private int h... 阅读全文
posted @ 2012-12-13 09:49 百年coding 阅读(389) 评论(0) 推荐(0) 编辑
团队阅读——怎样学习软件工程
摘要:看到这个题目,我首先想到的是邹老师对于软件工程教学负责的态度和践行的方法。邹老师在课堂上跟同学们的互动一直就非常高,对同学们项目工程的进展都给予了十分详的关注。现在相当于做个调查,让我们从受教育者的角度,谈一谈对软件工程教育中的看法。首先我们阅读了给出的几篇关于软工教学的材料:一个是软件工程不等于计算机科学(http://blog.sina.com.cn/s/blog_553f355101017g6l.html),另一个是软件工程教育中实践者的反思理论(http://blog.sina.com.cn/s/blog_553f355101017j8q.html)。两篇都是译文,译者是新悦论坛的博主 阅读全文
posted @ 2012-12-12 11:23 百年coding 阅读(345) 评论(2) 推荐(0) 编辑
scrum 12.10
摘要: 阅读全文
posted @ 2012-12-11 01:00 百年coding 阅读(226) 评论(2) 推荐(0) 编辑
用户项目测试报告
摘要:1、作为爬虫组我们交出了爬虫的第一个版本。在这个版本里,爬虫的功能加强了,只会下载网页和PDF,和pipeline小组的需求相对应上,还会往数据库中存入网页的信息,这样做的好处是可以大大的增加爬虫的效率。下面是操作界面:第一个是URL的种子地址,就是要爬取的网页地址。第二栏是要下载的网页数。第三栏是爬虫的线程数接着几个按钮,一个是开始,一个 是重置,一个是退出。下面是pipeline小组刘昕同学的使用过程和感觉:他感觉爬虫很好上手,很容易使用。只要知道爬虫的功能,自己摸索也能使用。其中,他感觉到尽管没有参与爬虫的开发,但是他可以使用爬虫提供的界面来爬取数据了。对于pipeline组,他们想要的 阅读全文
posted @ 2012-12-09 23:27 百年coding 阅读(196) 评论(0) 推荐(0) 编辑
scrum 12.8
摘要: 阅读全文
posted @ 2012-12-08 20:58 百年coding 阅读(205) 评论(0) 推荐(0) 编辑
scrum 12.7
摘要: 阅读全文
posted @ 2012-12-07 23:30 百年coding 阅读(217) 评论(0) 推荐(0) 编辑
scrum 12.6
摘要: 阅读全文
posted @ 2012-12-06 22:55 百年coding 阅读(240) 评论(0) 推荐(0) 编辑
scrum 12.5
摘要: 阅读全文
posted @ 2012-12-05 23:53 百年coding 阅读(153) 评论(4) 推荐(0) 编辑
scrum 12.4
摘要: 阅读全文
posted @ 2012-12-04 23:21 百年coding 阅读(166) 评论(0) 推荐(0) 编辑
HTML5的网页如何判断?
摘要:HTML5草案的前身名为 Web Applications 1.0。於 2004 年被 WHATWG 提出,於 2007 年被 W3C 接纳,并成立了新的 HTML 工作团队。2008年 1 月 22 日,W3C 发布了最新的 HTML5 工作草案,HTML 工作组包括 AOL、Apple、Google、IBM、 Microsoft、Mozilla、Nokia、Opera 等数百个开发上。HTML5中增加了许多新特性,例如嵌入音频、视频和图片的函数、客户端存储数据、交互式文档等,通过制定如何处理所有 HTML 元素以及如何从错误中恢复的精确规则,HTML5进一步增强了互动性,并有效减少了开发成 阅读全文
posted @ 2012-12-04 22:55 百年coding 阅读(1044) 评论(1) 推荐(0) 编辑
scrum 12、3
摘要: 阅读全文
posted @ 2012-12-03 23:48 百年coding 阅读(122) 评论(1) 推荐(0) 编辑
scrum 12.2
摘要: 阅读全文
posted @ 2012-12-02 20:31 百年coding 阅读(111) 评论(0) 推荐(0) 编辑
scrum 12.1
摘要: 阅读全文
posted @ 2012-12-02 00:00 百年coding 阅读(119) 评论(0) 推荐(0) 编辑
scrum 11.30
摘要: 阅读全文
posted @ 2012-12-01 00:54 百年coding 阅读(124) 评论(0) 推荐(0) 编辑

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示