网络爬虫我用phython
检查robots文件,地址是否要爬虫,不能作为盈利为目的
准备工作http://www.taobao.com/robots.txt
- 1内容如下:百度不可以抓取淘宝首页
User-agent: Baiduspider Allow: /article Allow: /oshtml Allow: /wenzhang Disallow: /product/ Disallow: / User-Agent: Googlebot Allow: /article Allow: /oshtml Allow: /product Allow: /spu Allow: /dianpu Allow: /wenzhang Allow: /oversea Disallow: / User-agent: Bingbot Allow: /article Allow: /oshtml Allow: /product Allow: /spu Allow: /dianpu Allow: /wenzhang Allow: /oversea Disallow: / User-Agent: 360Spider Allow: /article Allow: /oshtml Allow: /wenzhang Disallow: / User-Agent: Yisouspider Allow: /article Allow: /oshtml Allow: /wenzhang Disallow: / User-Agent: Sogouspider Allow: /article Allow: /oshtml Allow: /product Allow: /wenzhang Disallow: / User-Agent: Yahoo! Slurp Allow: /product Allow: /spu Allow: /dianpu Allow: /wenzhang Allow: /oversea Disallow: / User-Agent: * Disallow: / 不允许任何爬虫访问该网站
1.2 网站地图
忘记你做不到,不去天涯海角。在我身边就好 让我们一起祈祷