团队转会人员情况
摘要:百年coding 转出 由之望 到 www从DOOM 转入 潘学
阅读全文
posted @
2012-11-20 14:33
百年coding
阅读(175)
推荐(0) 编辑
百年Coding事后诸葛亮会议
摘要:设想和目标1.我们的软件要解决什么问题?是否定义得很清楚?是否对典型用户和典型场景有清晰的描述?解决目标网页爬取的问题,定义的比较清楚。有较为清晰的描述。2.是否有充足的时间来做计划?有时间,做了比较充足的计划。3.团队在计划阶段是如何解决同事们对于计划的不同意见的?对于不同的意见,团队随时召开小型讨论会,迅速解决分歧,保证计划的制定。计划1.你原计划的工作是否最后都做完了?如果有没做完的,为什么?做完了。2.有没有发现你做了一些事后看来没必要或没多大价值的事?有一些,比如说在最开始花了大量时间在页面分析上,但是实际上在alpha版本确实没多大必要。不过这个工作对于beta版本的实现却有很大意
阅读全文
posted @
2012-11-19 12:23
百年coding
阅读(264)
推荐(0) 编辑
爬虫1.0测试报告
摘要:1、单元测试模块类输入预期实际分析网页分析一个包含若干链接的网页将页面上的URL作初步筛选过滤后提取出来网页上的URL都被提取出来放在队列中模块功能正常队列-队列里的URL项有序进入下载无异常模块功能正常下载提供URL项按提供的地址获取该网页内容该网页被下载模块功能正常分类-将下载到的内容分类放到指定文件夹里网页上的内容分块存放模块功能正常线程-需要下载的URL数量非常多时分多线程同时下载提高效率下载速度明显加快模块功能正常分模块测试的工作比较简单,主要是检查各模块和一些函数块是否正常工作。2、本地站点测试(测试:刘泽枫)接下来进行全局测试,模拟爬取过程,分析整个程序运行的结果和性能。先在本机
阅读全文
posted @
2012-11-19 08:34
百年coding
阅读(2271)
推荐(0) 编辑
测试计划
摘要:测试主要分两部分:1、单元测试对每一模块给若干简单样例输入,观察输出结果判断模块功能是否正常模块类预期页面分析对给定的网页进行分析,筛选过滤提取出URL队列上步URL存放于队列中并有序访问下载根据队列中的地址下载文件分类把下载到的内容按格式分类存放在指定文件夹线程URL数量庞大时分多线程下载提高效率2,整体性能测试制作若干静态网页,一张网页放置各种链接,其余网页作为链接对象,放置不同格式的内容。在本地站点上进行爬取,程序对URL进行筛选,然后分析页面内容,对下载到的文件按格式分类。可以修改制作网页的内容,进行多次重复测试;3,运行程序,整体效果爬取一些外链,通过结果分析程序的功能是否出现异常4
阅读全文
posted @
2012-11-19 08:15
百年coding
阅读(220)
推荐(0) 编辑
软件开发的轻与重
摘要:重意味着严谨、繁琐,轻则意味着迅捷、零散。应当轻还是重?这是个问题通过这次的阅读任务,我想从这两个方面谈软件工程的轻与重:开发流程模式 与 开发团队模式开发流程模式的轻与重:Managing the development of large software systems: concepts and techniques理想的瀑布模型:系统需求——>软件需求——>分析——>程序设计——>编码——>测试——>运行animplementation steps to develop a large computer program for delivery to
阅读全文
posted @
2012-11-14 11:35
百年coding
阅读(2101)
推荐(3) 编辑
crawler technical spec
摘要:爬虫技术文档一、爬虫的运行效果首先爬虫工作时要对初始爬取的URL进行输入,点击开始后爬虫开始进行爬取工作。当爬虫将线程全部爬完,并且将要爬取的队列为空时,爬虫停止工作。当然也可以人为停止爬虫的工作。只需要点击停止按钮。爬取时,爬虫界面显示:当前开的线程数,工作的线程数,爬取过的URL地址。下载的各个类的文件数量,和网页数。爬虫爬取到的数据文件都放到一个固定的地址。二、爬虫构成的几个重要包 1、crawler包: 是爬虫的main函数所在,所有功能最后的集成,效果的展现都由这个类来体现。具体的就是执行爬虫的工作步骤。 2、queue包: 主要工作是对URL进行处理,包含两个队列,一个是已经爬取过
阅读全文
posted @
2012-11-06 12:57
百年coding
阅读(251)
推荐(0) 编辑