摘要: 1) 团队成员的简介和个人博客地址团队:TeamSHIT团队博客:http://www.cnblogs.com/teamshit/团队成员如下:姓名职务个人博客地址胡仁君PM,开发员www.cnblogs.com/hurj/彭笑东开发员www.cnblogs.com/ipxd92513/李斌测试员www.cnblogs.com/kevinlb/隋宇豪数据库维护员www.cnblogs.com/yhsui/连昭鹏(M2已转会至SB)开发员www.cnblogs.com/lzplzp/2) 我们要做软件工程, 那就要有一点工程的样子:团队项目:学霸Pipeline项目目标:处理Cralwer爬取的 阅读全文
posted @ 2013-01-07 12:01 teamshit 阅读(303) 评论(0) 推荐(0) 编辑
摘要: M2 PostmortemTeamSHIT2013/01/07设想和目标我们的软件要解决什么问题?是否定义得很清楚?是否对典型用户和典型场景有清晰的描述?我们实现的软件是一个网上教学问答系统,具体负责数据Pipeline部分,即处理爬虫爬取的网页,按照UI组的要求提取相应的数据并写入数据库中。具体要求是分析非问答型网页(type = webpage),提取网页标签,对每个标签抽取标签预览。是否有充足的时间来做计划?M2的开发周期是4周,第1周用来做计划。到M2我们对Pipeline的系统框架和功能已经了解足够详细,计划的内容主要是数据抽取部分的算法。团队在计划阶段是如何解决同事们对于计划的不同 阅读全文
posted @ 2013-01-07 11:20 teamshit 阅读(293) 评论(0) 推荐(0) 编辑
摘要: 说实话,我们的这个软件真的不太好单独发布。本来想叫上爬虫组和UI组一起整合后联合发布,但是整合的结果不太好。正好我们也做了图形界面,就单独发布吧。等所有组完全整合起来后,应该会是一个不错的网站。 界面没有变化,但是内部是完全重新写的。第二阶段两个pipeline组做了分工,我们负责网页部分的提取,另一组负责PDF和问答部分。对数据格式我们做了一些改进,比如每个网页有四个标签,每一个标签对应一个preview。这个preview的目的是提供在网页内容中,标签词汇附近的内容预览。类似于搜索引擎的预览功能。图1 百度搜索的预览图2 选择网页的一个标签,查看其附近内容图3 图形界面 但是最终的... 阅读全文
posted @ 2012-12-17 01:32 teamshit 阅读(1413) 评论(1) 推荐(0) 编辑
摘要: TeamSHIT 我们小组阅读的是SuperBrother组的代码,按照代码大全的内容作为评价标准。 复审结果:代码大全会就一个具体问题给出几种比较优秀的规范,SB的代码大体上符合代码大全里说的某一种标准。具体地说,变量名取得都比较规范,按照变量名的前缀、字面意思以及一些必要的注释,基本能清楚编码人员设置这个变量的作用;变量的使用符合就近原则,没有出现一个变量的生存周期很长导致使用的时候忘记它之前设置的值这类问题;程序的结构良好,将实现某一个具体功能的代码群放置在一起;抽象了大量接口,每个变量都写了get和set函数,设计了很多类,保证每个类完成一个单一的功能。以上4点非常良好的保证了其工.. 阅读全文
posted @ 2012-12-13 22:35 teamshit 阅读(614) 评论(0) 推荐(0) 编辑
摘要: TeamSHIT“学而习" VS "习而学"自读书伊始,一直接受的是"学而习"的教育方式,学而后习,是谓学习。但是邹欣老师说还有一种颠覆传统的"习而学"教育方式,在国内最早是由茅以升先生提出,并且已经在一些地方付诸实践了。茅先生指出现在的教育体系下,偏工程类的工科大学生入学先学习数学、物理等抽象的理论知识,随着年级的增长再学习抽象概念少、更接近实际的学科。先学抽象再学具体,学生接受知识的顺序是从难到易,成了本末倒置。相反,如果学生入学先学习一些接近实际的学科,先知其然不求其所以然,在高年级再学习抽象的理论时回顾之前不知其所以 阅读全文
posted @ 2012-12-12 00:23 teamshit 阅读(225) 评论(0) 推荐(0) 编辑
摘要: 这点卑微的吐槽不知道有没有人看见,团队里的人太少了了了!!!!还有数据库作业啊!还有编译作业啊!还要看书啊!人少干P啊!!!次奥!关于采访本校上过传统软件工程的学生的任务,我们设计了下面的问卷:这篇问卷的问题是在邹欣老师提出的几个基础问题上修改而来,设计的答案基本涵盖了所有可能的情况,个人感觉是一份质量不错的问卷。我们将此问卷发送给7位北航09级计算机学院的学生、3位北航10级学习学院老师开设软工课的学生、1位10级武汉大学计算机学院的学生、1位10级上海交大计算机学院的学生以及2位中国海洋大学10级计算机学院的学生,都得到他们的回复,在此再次表示感谢!下面是每个问题的统计结果和分析:这个问题 阅读全文
posted @ 2012-12-12 00:19 teamshit 阅读(244) 评论(1) 推荐(0) 编辑
摘要: 记得在学期的一开始,辅导员曾说过:“面向对象建模是教你如何写代码,软件工程是教你如何让别人写代码”。我认为这句话虽然听起来像外行人的评论,但在一定程度上也说明了软件工程课程的教学目的。软件工程课程开在第三学年,在我们上完了高级程序设计语言、JAVA、数据结构和面向对象建模后。也就是说,软件工程课程不再关心我们是否懂得怎样编写代码(因为在上过先修课程后,我们已经有了一定的面向对象编程能力)。 软件工程与计算机科学是两门有一定联系却有着诸多不同的学科。 Software Engineering ≠ Computer Science(http://blog.sina.com.cn/s/blo... 阅读全文
posted @ 2012-12-11 22:47 teamshit 阅读(279) 评论(0) 推荐(0) 编辑
摘要: TeamSHIT 欠着一一片Scrum Meeting,本来说是要昨天补的,奈何昨天出去吃饭是醉回来,所以…… 经过周末的突击,Pipeline的大致部分已经完成,中文网页用的是朴素的贝叶斯分词,英文网页没有分词的需求。关键字提取部分借助语料字典和朴素的过滤停用词后取高频的思想,抽取的词基本满足使用要求。 接下去的工作是整合,数据库读写、测试以及小组间的协调了。组员今天任务明天任务胡仁君任务429词频统计任务429词频统计副信息(date,author等)抽取彭笑东 任务343信息抽取的代码复审任务343信息抽取的代码复审李斌任务339制定信息抽取的任务计划,代码覆盖率在60%以... 阅读全文
posted @ 2012-12-09 23:56 teamshit 阅读(210) 评论(0) 推荐(0) 编辑
摘要: TeamSHIT 之前有一天(6号)的ScrumMeeting没有,本周六(8号)补上。组员今天任务明天任务胡仁君任务428正文分词任务429词频统计彭笑东 任务374翻译语料库任务343信息抽取的代码复审李斌任务373翻译语料库任务339制定信息抽取的任务计划,代码覆盖率在60%以上隋宇豪任务375创建语料库相关字典任务287相关数据库定义与实现燃尽图和燃速图 阅读全文
posted @ 2012-12-07 23:08 teamshit 阅读(150) 评论(0) 推荐(0) 编辑
摘要: 组员今天任务明天任务胡仁君任务428正文分词任务429词频统计任务428正文分词任务429词频统计彭笑东 任务374翻译语料库任务374翻译语料库李斌任务373翻译语料库任务373翻译语料库隋宇豪任务375创建语料库相关字典任务375创建语料库相关字典燃尽图和燃速图 阅读全文
posted @ 2012-12-05 23:58 teamshit 阅读(185) 评论(2) 推荐(0) 编辑