网站爬取 一二事
2018 / 4 / 23
哇 昨晚开20 个进程爬取 https://www.rockauto.com/
3级之后 达到百万级 数目
然后呢 爬了 70W 左右 发现 数据对不上 原来是链接 有问题
爬取的url 链接一定要去 格式 常见有 空格 amp; 这些都是自动解析出来的
但是目标网站不一定能识别
所有 链接去格式
2018 / 4 / 27
关于爬取网页数据 到分析数据 转储数据库的问题
关于前辈经验 一份数据表不宜过大 超过200w条的数据就建议分表
理论上来说 纯数字的表 要比 数字 英文 组合的数据表要快
在超过200w 混合表 和 1千w 纯数字表 建议分表
原因:1 . 数据表大 处理速度开始直线下降
2 . 数据表不好后期迁移
爬取网页过程中 一般来说 都是每一级页面存一个表
小技巧 : 把下级所需要的数据整合到单表
也就是说 在链接数据库的时候尽量不要联表取数据 数据量一旦过多 速度是瓶颈