水木清华社区招聘信息定时抓取
水木上有非常活跃的招聘者在公布招聘信息,可是水木的速度却非常慢。于是试着将其抓取下来,这样子浏览的速度就快了非常多。并且将其部署在SAE上面。可以仅仅查看须要的信息。减少了本地流量耗费,在新浪云平台上启用了两个JVM,云豆预计可以用的。
在浏览器中请求水木时候,它会分不同的数据返回,首先就是页面的框架和广告。最后才是内容!
分析了它的返回数据的构成之后,就能够利用Jsoup去请求了。取回来的数据直接进行抽取和过滤,留下须要的数据。然后存到数据库中去。最后再显示到页面上来。
整个过程大概就是如此。
同一时候认为要是手动去抓取的话。就太没有意思了,于是设置了定时器,能够定时地去抓取数据并保存。每个小时抓取一次。这样算是差点儿相同能追上论坛的更新了吧,(突然想到还能够晚上的时间段歇息,减少消耗)。
突然想到,能够加个功能。每一篇招聘信息中差点儿都会有邮箱地址,能够解析出来,准备好一个简历模板,自己主动批量发简历!
之后可能会加入别的站点的数据。
界面简单。
可能会有非常多bug。
详细能够移步:http://huntinfo.sinaapp.com/ ,