[转]知乎爬虫之1:开篇序言(附赠爬出的数据库)

知乎爬虫之1:开篇序言(附赠爬出的数据库)

本文由博主原创,转载请注明出处,原文链接：我的博客-知乎爬虫之开篇序言

git爬虫项目地址(关注和star在哪里~~):https://github.com/MatrixSeven/ZhihuSpider（爬虫已完结）

附赠之前爬取的数据一份(mysql): 链接:https://github.com/MatrixSeven/ZhihuSpider/README.MD 只下载不点赞，不star，差评差评~蓝瘦香菇）

在知乎看到一个可视化话题的文章，所以一时心血来潮，打算用Java也写一个爬虫并且集成到Spring中，结合ECharts生成人物关系，当然，既然爬一次，个人信息也都要获取到。
那么今天起起(结束日未知，目录也会根据实际情况进行更新)，我将写一个系列的爬取知乎的爬虫文章，一直到数据可视化完成（完成后，爬虫部分将使用Scala重写）。

1. 预计可视化部分包括

人物关系可视化
人员地理分布可视化
人员大学分布可视化
男女比例可视化
用户点赞可视化

2. 预计内容和目录

开篇感言
爬虫流程设计
1. 如何过滤重复数据
2. 如何在爬取时创建人物关系
请求分析
1. 登陆请求分析
2. 跟随/关注请求分析
抓取页面数据
1. jsoup抽取页面内容
优化
1. 使用多线程加速
2. 使用队列减少数据库访问
3. 实现LRU提高缓存命中率
基于SpringBoot的简单应用
1. 介绍
2. 简单配置
扩展内容
1. 整合Mybatis
2. 编写Jsonp跨域请求API
走起苦逼的前端
1. 使用Bootstrop布局
2. 引入ECharts图形库
再见，吹牛结束。

posted on 2017-01-05 09:41 Crysaty 阅读(193) 评论(0) 收藏举报

刷新页面返回顶部

Crysaty

[转]知乎爬虫之1:开篇序言(附赠爬出的数据库)

知乎爬虫之1:开篇序言(附赠爬出的数据库)

1. 预计可视化部分包括

2. 预计内容和目录

导航

公告