团队-爬取豆瓣电影Top250-项目总结
团队名称:极限定理
项目名称:爬取豆瓣电影Top250
组长:邵文强
成员:张晓亮、潘新宇、邵翰庆、宁培强、李国峰
总结:
一.项目效果演示:
输入网址,查询页面所有信息。
针对电影类别查询,统计,整合。
二.项目的背景和相关工作:
项目的分析
项目针对的实际问题
完成项目的相关工作(需求的实际报告、程序的设计)
三.确定项目的方向-针对信息的搜索
针对网页的搜索引擎发的很比较成熟,而针对的信息的搜索正在成为热点,而且技术上更有难度。
四.项目遇到的问题:
爬虫的实时性的问题
网站对爬虫的限制
自然语言的信息提取
(信息更新不是很快)
(信息提取相对容易)
五.针对软件资源的问题:
正则表达式导致读取网页过慢。
软件资源的更新速度不算太快,我们的爬虫可以跟上更新的速度。
所有的信息是半结构化,信息的提取比自然语言提取更容易。
在实际中,有比较好的应用。
六.项目的相关的工作:
信息提取
自然语言处理
增量式爬虫的原理
半结构化的信息提取
七.分析设计:
需求分析
项目的框架
网络爬虫
半结构化信息提取
查询的预处理
功能需求分析:
1.能够下载任何http协议和HTTPS协议的链接的网页
2.构造http请求中的GET请求
3.分析http响应请求。
4.提取网页链接并统计数量。
5.保存,能够正确的保存网页及网页信息到文件。
功能模块流程图:
构造GET请求——>链接网站服务器——>发送GET请求——>接受网站的数据——>分析HTTP报文头
需要说明的问题:
1,.利用系统函数把网页读入内存。
2.利用正则表达式提取相关信息。
3.把一个网页URL写入文件保存。
八.模块
主要事件流:
1.构造GET请求
2.链接服务器。
3.发送GET请求
4.接受网站返回的数据。
异常事件:
1.申请大块内存失败。
2.分配内存对象失败。
3.链接网站服务器失败。
4.发送请求失败。
5.接受网站返回数据失败
九.基本工具的使用
1) urllib2: urllib2的基本用途、只要函数,如何post数据,cookie的设置
2)异常处理的方式:
a)try...except
b)Http异常码
3) 文件读写创建等常用操作
4)关于编码问题
5)运用以上工具实现一个基本网页的抓取。
十.测试与结果
对爬虫程序的设计:输入不合法的URL。能弹出错误提示。
输入各种类型的URL,只对http和HTTPS链接处理其他链接被视为异常。
图片示例: