7月17日——高校就业信息网站功能及数据获取之python爬虫

　　本周我们小组在分析上周用户需求之后，确定了网站的主要框架和功能、数据收集和存储方式，以及项目任务分配。

一、网站的主要框架和功能。

　　网站近期将要实现的主要功能有，先重点收集高校（华东五校）就业宣讲会的的信息，可以按宣讲会的发布时间、发布高校进行分类显示。后期再加入公司所属行业类别、公司简介、公司评价等信息。后期效果图：

二、数据收集和存储方式。

　　数据搜集目标是高校就业官网的宣讲会信息，包括公司名称、宣讲会时间、宣讲会地点，宣讲会介绍（链接），所属高校。

　　搜集方法是python网络爬虫，主要用到的库为：requests、BeautifulSoup。python版本为2.7+。以复旦大学的就业网爬虫程序为例，如下所示：

 1 # -*- coding:utf-8 -*-
 2 
 3 import requests
 4 from bs4 import BeautifulSoup
 5  
 6 url = 'http://www.career.fudan.edu.cn/jsp/career_talk_list.jsp'
 7 front = 'http://www.career.fudan.edu.cn/html/xjh/1.html?view=true&key='
 8 
 9 #查询count条记录
10 post_data = {
11     'count':'20',
12     'list':'true',
13     'Referer': "http://www.career.fudan.edu.cn/jsp/career_talk_list.jsp?count=20&list=true&page=1", 
14     'Host':"www.career.fudan.edu.cn",
15     'User-Agent':"Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:47.0) Gecko/20100101 Firefox/47.0"
16     } 
17 return_data = requests.post(url, post_data)
18 soup = BeautifulSoup(return_data.text,'lxml')
19 for job in soup.find_all(id = 'tab1_bottom'):
20     url = front + job.get('key')
21     name = job.find(class_ = 'tab1_bottom1').get_text()
22     types = job.find(class_ = 'tab1_bottom2').get_text()
23     date = job.find(class_ = 'tab1_bottom3').get_text()
24     time = job.find(class_ = 'tab1_bottom4').get_text()
25     place = job.find(class_ = 'tab1_bottom5').get_text()
26     print name, types, place, date, time
27     print  url,'\n'

　　数据库存储选用Mysql，利用MYSQLdb进行python与数据库的连接，对于宣讲会信息存储，表内主要字段有公司名称（xjh_name）、宣讲会时间（xjh_time）、宣讲会地点（xjh_place），宣讲会介绍链接（xjh_url），所属高校（school_name）。

　　三、团队人员任务分配。

　　网页设计与后端：李嫣然、宫亚南、崔文祥、王涛。主要开发技术：Html、CSS、Javascript、Java Web（tomcat部署）

　　数据搜集与存储：冀若阳、尤东森

posted on 2016-07-17 23:17 HouseStark 阅读(859) 评论(0) 编辑收藏举报

刷新页面返回顶部

HouseStark

导航

公告

7月17日——高校就业信息网站功能及数据获取之python爬虫