2013年1月7日
摘要: 百年Coding小组成员简介:PM 贾伟博客地址:http://www.cnblogs.com/coolcrow/程序开发人员:吴翰雄博客地址:http://www.cnblogs.com/metalcrash/邓嘉博客地址:http://www.cnblogs.com/freestyle-sn/潘学博客地址:http://www.cnblogs.com/DOOM-px/闫生辉博客地址:测试人员祁彦博博客地址:http://home.cnblogs.com/u/Phoenixcaicai512/刘牛顿博客地址:http://home.cnblogs.com/u/fenglq/2、在软件工程的实 阅读全文
posted @ 2013-01-07 12:05 百年coding 阅读(342) 评论(1) 推荐(0) 编辑
摘要: 1.我们的软件要解决什么问题?是否定义得很清楚?是否对典型用户和典型场景有清晰的描述?解决目标网页爬取的问题,目标网页为Pipeline需要的网页,定义清楚。有清晰的描述。应用场景也有清晰的定义。2.是否有充足的时间来做计划?有时间,做了比较充足的计划。3.团队在计划阶段是如何解决同事们对于计划的不同意见的?对于不同的意见,团队随时召开小型讨论会,迅速解决分歧,保证计划的制定。计划1.你原计划的工作是否最后都做完了?如果有没做完的,为什么?做完了。但是有一个bug因为发现的太晚导致彻底修复有很大的困难。2.有没有发现你做了一些事后看来没必要或没多大价值的事?有一些,比如说在最开始花了大量时间在 阅读全文
posted @ 2013-01-07 11:15 百年coding 阅读(451) 评论(0) 推荐(0) 编辑
  2012年12月15日
摘要: 网页解析,即程序自动分析网页内容、获取信息,从而进一步处理信息。网页解析是实现网络爬虫中不可缺少而且十分重要的一环,由于本人经验也很有限,我仅就我们团队开发基于关键词匹配和模板匹配的主题爬虫的经验谈谈如何实现网页解析。首先,必须说在最前的是我们使用的工具——htmlparser简要地说,htmlparser包提供方便、简洁的处理html文件的方法,它将html页面中的标签按树形结构解析成一个一个结点,一种类型的结点对应一个类,通过调用其方法可以轻松地访问标签中的内容。我所使用的是htmlparser2.0,也就是最新版本。强烈推荐。好,进入正题。对于主题爬虫,它的功能就是将与主题相关的网页下载 阅读全文
posted @ 2012-12-15 14:54 百年coding 阅读(49206) 评论(19) 推荐(5) 编辑
  2012年12月13日
摘要: 我们进行的是对76er的代码进行审核。代码问题和优点有以下几点:1、有无用类,在整个工程中Url类,没有被用到,所以是一个无用的类,存在于代码中。public class Url { // 原始url的值,主机部分是域名 private String oriUrl; // url的值,主机部分是IP private String url; //URL NUM private int urlNo; // 获取URL返回的结果码 private int statusCode; // 此URL被别的文章引用的次数 private int h... 阅读全文
posted @ 2012-12-13 09:49 百年coding 阅读(388) 评论(0) 推荐(0) 编辑
  2012年12月12日
摘要: 看到这个题目,我首先想到的是邹老师对于软件工程教学负责的态度和践行的方法。邹老师在课堂上跟同学们的互动一直就非常高,对同学们项目工程的进展都给予了十分详的关注。现在相当于做个调查,让我们从受教育者的角度,谈一谈对软件工程教育中的看法。首先我们阅读了给出的几篇关于软工教学的材料:一个是软件工程不等于计算机科学(http://blog.sina.com.cn/s/blog_553f355101017g6l.html),另一个是软件工程教育中实践者的反思理论(http://blog.sina.com.cn/s/blog_553f355101017j8q.html)。两篇都是译文,译者是新悦论坛的博主 阅读全文
posted @ 2012-12-12 11:23 百年coding 阅读(342) 评论(2) 推荐(0) 编辑
  2012年12月11日
摘要: 阅读全文
posted @ 2012-12-11 01:00 百年coding 阅读(226) 评论(2) 推荐(0) 编辑
  2012年12月9日
摘要: 1、作为爬虫组我们交出了爬虫的第一个版本。在这个版本里,爬虫的功能加强了,只会下载网页和PDF,和pipeline小组的需求相对应上,还会往数据库中存入网页的信息,这样做的好处是可以大大的增加爬虫的效率。下面是操作界面:第一个是URL的种子地址,就是要爬取的网页地址。第二栏是要下载的网页数。第三栏是爬虫的线程数接着几个按钮,一个是开始,一个 是重置,一个是退出。下面是pipeline小组刘昕同学的使用过程和感觉:他感觉爬虫很好上手,很容易使用。只要知道爬虫的功能,自己摸索也能使用。其中,他感觉到尽管没有参与爬虫的开发,但是他可以使用爬虫提供的界面来爬取数据了。对于pipeline组,他们想要的 阅读全文
posted @ 2012-12-09 23:27 百年coding 阅读(193) 评论(0) 推荐(0) 编辑
  2012年12月8日
摘要: 阅读全文
posted @ 2012-12-08 20:58 百年coding 阅读(203) 评论(0) 推荐(0) 编辑
  2012年12月7日
摘要: 阅读全文
posted @ 2012-12-07 23:30 百年coding 阅读(216) 评论(0) 推荐(0) 编辑
  2012年12月6日
摘要: 阅读全文
posted @ 2012-12-06 22:55 百年coding 阅读(237) 评论(0) 推荐(0) 编辑