摘要: 前言:本文是介绍利用代理IP池以及多线程完成前程无忧网站的是十万条招聘信息的采集工作,已适当控制采集频率,采集数据仅为了学习使用,采集十万条招聘信息大概需要十个小时。 起因是在知乎上看到另一个程序猿写的前程无忧的爬虫代码,对于他的一些反反爬虫处理措施抱有一丝怀疑态度,于是在他的代码的基础上进行改造, 阅读全文
posted @ 2020-06-23 18:07 码上无忧 阅读(2495) 评论(0) 推荐(0) 编辑
摘要: 前言:本文主要内容是介绍如何用最简单的办法去采集新浪微博的数据,主要是采集指定微博用户发布的微博以及微博收到的回复等内容,可以通过配置项来调整爬取的微博用户列表以及其他属性。 既然说是最简单的办法,那么我们就得先分析微博爬虫可能选择的几个目标网址,首先肯定是最常见的web网站了 还有就是m站,也就是 阅读全文
posted @ 2020-06-22 22:11 码上无忧 阅读(1928) 评论(0) 推荐(0) 编辑
摘要: 前言:本文主要是分享下利用python爬取百度指定贴吧的全部帖子以及帖子回复内容,主要是利用python的request库获取网页信息,通过正则等方式解析我们需要的数据并存储到数据库中,并且后续可以用于情感分析、热词分析等分析,这些分析操作可以看我的另一篇文章。 https://www.bizhib 阅读全文
posted @ 2020-06-22 21:14 码上无忧 阅读(659) 评论(0) 推荐(0) 编辑
摘要: 1.本课题的目的及意义 新生报到数据一直是困扰着各大高校的管理性问题,人数多、工作量大,这无疑是一个挑战,也因此加快了高校的信息化建设步伐。随着互联网的普及与发展,日常生活中人们接触到的数据正以惊人的速度增长。数据已经成为人们生活中必不可少的事务,随着学校数量和规模的不断扩大,各高校招生人数不断增加 阅读全文
posted @ 2020-06-19 11:56 码上无忧 阅读(549) 评论(1) 推荐(0) 编辑
摘要: 前言:在上一篇文章中,我们介绍了在PM2.5.in这个网站采集空气质量的数据,本篇文章是对其产生的一些问题的另一种解决方案,提供更加权威的数据采集。 技术框架:selenium、json、etree 这里的selenium是一种自动化测试的工具,它可以帮助我们模拟浏览器打开网页并获取网页数据,本文之 阅读全文
posted @ 2020-06-19 10:58 码上无忧 阅读(333) 评论(0) 推荐(0) 编辑
摘要: 系统分析: 高校舆情分析拟实现如下功能,采集微博、贴吧、学校官网的舆情信息,对这些舆情进行数据分析、情感分析,提取关键词,生成词云分析,情感分析图,实时监测舆情动态。 系统设计: 前端:采用layui+echarts实现图表的展示,数据分析的结果 后端:采用requests实现数据的采集,利用fla 阅读全文
posted @ 2020-06-19 10:07 码上无忧 阅读(606) 评论(0) 推荐(0) 编辑
摘要: 1.1 系统功能 在对主要需求进行分析后,确定系统由以下几个模块组成。 1) 用户信息管理: 该部分主要完成系统管理员的增加、删除、编辑和访问控制权限等操作。 2) 数据管理: 该部分主要完成后台存储数据的查看、编辑以及系统数据库的备份和访问日志数据管理。 3) 采集规则管理: 该部分主要是在系统的 阅读全文
posted @ 2020-06-19 09:33 码上无忧 阅读(230) 评论(0) 推荐(0) 编辑
摘要: /** * 数字前面自动补零 * @param number 数字 * @return */ public static String geFourNumber(int number){ NumberFormat formatter = NumberFormat.getNumberInstance( 阅读全文
posted @ 2020-06-09 16:21 码上无忧 阅读(7086) 评论(0) 推荐(0) 编辑
摘要: 前言:对于我们任何一个漂泊在外的打工者,租房似乎都是我们必经的一个经历,对于我们而言,选择性价比最高,最适合自己的房源至关重要,本文就将利用爬虫技术采集蘑菇租房网上指定的房源信息,后续可以利用这些信息进行机器筛选,比价等等,从而更加方便的找到自己心仪的房源。 爬虫第一步,找到目标网站,确定数据来源, 阅读全文
posted @ 2020-06-04 17:36 码上无忧 阅读(192) 评论(0) 推荐(0) 编辑
摘要: 前言:随着国内肺炎疫情的逐渐好转,国外的疫情却越来越严重,其中原因,相必大家都心领神会,想到这里,我打算采用自身所学的技术采集下最新的国外数据,掌握最新的动态,希望能有一天也能看到不再增长的疫情传播。 前期准备:作为爬虫,我们首先就要选择一个合适的目标网站,这里我们选择的是丁香园的数据,如下图所示 阅读全文
posted @ 2020-06-04 15:16 码上无忧 阅读(552) 评论(0) 推荐(0) 编辑