网站爬取一二事

2018 / 4 / 23

哇昨晚开20 个进程爬取 https://www.rockauto.com/

3级之后达到百万级数目

然后呢爬了 70W 左右发现数据对不上原来是链接有问题

爬取的url 链接一定要去格式常见有空格   amp; 这些都是自动解析出来的

但是目标网站不一定能识别

所有链接去格式

2018 / 4 / 27

关于爬取网页数据到分析数据转储数据库的问题

关于前辈经验一份数据表不宜过大超过200w条的数据就建议分表

理论上来说纯数字的表要比数字英文组合的数据表要快

在超过200w 混合表和 1千w 纯数字表建议分表

原因:1 . 数据表大处理速度开始直线下降

　　 2 . 数据表不好后期迁移

爬取网页过程中一般来说都是每一级页面存一个表

小技巧 : 把下级所需要的数据整合到单表

　　　　也就是说在链接数据库的时候尽量不要联表取数据数据量一旦过多速度是瓶颈

posted on 2018-04-24 17:34 VitoriaMR 阅读(109) 评论(0) 收藏举报

刷新页面返回顶部

VitoriaMR