HouseStark

导航

7月17日——高校就业信息网站功能及数据获取之python爬虫

  本周我们小组在分析上周用户需求之后,确定了网站的主要框架和功能、数据收集和存储方式,以及项目任务分配。

一、网站的主要框架和功能。

  网站近期将要实现的主要功能有,先重点收集高校(华东五校)就业宣讲会的的信息,可以按宣讲会的发布时间、发布高校进行分类显示。后期再加入公司所属行业类别、公司简介、公司评价等信息。后期效果图:

 

二、数据收集和存储方式。

  数据搜集目标是高校就业官网的宣讲会信息,包括公司名称、宣讲会时间、宣讲会地点,宣讲会介绍(链接),所属高校。

  搜集方法是python网络爬虫,主要用到的库为:requests、BeautifulSoup。python版本为2.7+。以复旦大学的就业网爬虫程序为例,如下所示:

 1 # -*- coding:utf-8 -*-
 2 
 3 import requests
 4 from bs4 import BeautifulSoup
 5  
 6 url = 'http://www.career.fudan.edu.cn/jsp/career_talk_list.jsp'
 7 front = 'http://www.career.fudan.edu.cn/html/xjh/1.html?view=true&key='
 8 
 9 #查询count条记录
10 post_data = {
11     'count':'20',
12     'list':'true',
13     'Referer': "http://www.career.fudan.edu.cn/jsp/career_talk_list.jsp?count=20&list=true&page=1", 
14     'Host':"www.career.fudan.edu.cn",
15     'User-Agent':"Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:47.0) Gecko/20100101 Firefox/47.0"
16     } 
17 return_data = requests.post(url, post_data)
18 soup = BeautifulSoup(return_data.text,'lxml')
19 for job in soup.find_all(id = 'tab1_bottom'):
20     url = front + job.get('key')
21     name = job.find(class_ = 'tab1_bottom1').get_text()
22     types = job.find(class_ = 'tab1_bottom2').get_text()
23     date = job.find(class_ = 'tab1_bottom3').get_text()
24     time = job.find(class_ = 'tab1_bottom4').get_text()
25     place = job.find(class_ = 'tab1_bottom5').get_text()
26     print name, types, place, date, time
27     print  url,'\n'

  

 

  数据库存储选用Mysql,利用MYSQLdb进行python与数据库的连接,对于宣讲会信息存储,表内主要字段有公司名称(xjh_name)、宣讲会时间(xjh_time)、宣讲会地点(xjh_place),宣讲会介绍链接(xjh_url),所属高校(school_name)

 

  三、团队人员任务分配。

  网页设计与后端:李嫣然、宫亚南、崔文祥、王涛。主要开发技术:Html、CSS、Javascript、Java Web(tomcat部署)

  数据搜集与存储:冀若阳、尤东森

 

posted on 2016-07-17 23:17  HouseStark  阅读(859)  评论(0编辑  收藏  举报