网站爬取 一二事

2018 / 4 / 23

哇 昨晚开20 个进程爬取  https://www.rockauto.com/ 

3级之后 达到百万级  数目

然后呢 爬了 70W 左右 发现 数据对不上 原来是链接 有问题 

爬取的url 链接一定要去 格式 常见有 空格   amp; 这些都是自动解析出来的  

但是目标网站不一定能识别 

所有 链接去格式 

2018 / 4 / 27

关于爬取网页数据 到分析数据  转储数据库的问题

关于前辈经验  一份数据表不宜过大 超过200w条的数据就建议分表

理论上来说  纯数字的表 要比 数字 英文 组合的数据表要快 

在超过200w 混合表 和 1千w 纯数字表    建议分表

原因:1 . 数据表大  处理速度开始直线下降

   2 . 数据表不好后期迁移

爬取网页过程中  一般来说 都是每一级页面存一个表

小技巧 : 把下级所需要的数据整合到单表 

    也就是说 在链接数据库的时候尽量不要联表取数据 数据量一旦过多 速度是瓶颈

posted on 2018-04-24 17:34  VitoriaMR  阅读(97)  评论(0编辑  收藏  举报

导航