[转]知乎爬虫之1:开篇序言(附赠爬出的数据库)

知乎爬虫之1:开篇序言(附赠爬出的数据库)

本文由博主原创,转载请注明出处,原文链接:我的博客-知乎爬虫之开篇序言

git爬虫项目地址(关注和star在哪里~~):

附赠之前爬取的数据一份(mysql): 链接:只下载不点赞,不star,差评差评~蓝瘦香菇)

在知乎看到一个可视化话题的文章,所以一时心血来潮,打算用Java也写一个爬虫并且集成到Spring中,结合ECharts生成人物关系,当然,既然爬一次,个人信息也都要获取到。
那么今天起起(结束日未知,目录也会根据实际情况进行更新),我将写一个系列的爬取知乎的爬虫文章,一直到数据可视化完成(完成后,爬虫部分将使用Scala重写)。

1. 预计可视化部分包括

  1. 人物关系可视化
  2. 人员地理分布可视化
  3. 人员大学分布可视化
  4. 男女比例可视化
  5. 用户点赞可视化

2. 预计内容和目录

  1. 开篇感言
  2. 爬虫流程设计
    1. 如何过滤重复数据
    2. 如何在爬取时创建人物关系
  3. 请求分析
    1. 登陆请求分析
    2. 跟随/关注请求分析
  4. 抓取页面数据
    1. jsoup抽取页面内容
  5. 优化
    1. 使用多线程加速
    2. 使用队列减少数据库访问
    3. 实现LRU提高缓存命中率
  6. 基于SpringBoot的简单应用
    1. 介绍
    2. 简单配置
  7. 扩展内容
    1. 整合Mybatis
    2. 编写Jsonp跨域请求API
  8. 走起苦逼的前端
    1. 使用Bootstrop布局
    2. 引入ECharts图形库
  9. 再见,吹牛结束。

posted on 2017-01-05 09:41  Crysaty  阅读(177)  评论(0编辑  收藏  举报

导航