2018年9月16日
摘要: 1、下载metaseeker(一款比较实用的网站数据采集程序) 2、将所要爬取的网页复制到网址里,按回车。我选择的是当当网新书排行榜页面,标2的地方表示已经导入到软件里了。 3、命名主题,查重,查看是否名称冲突。Dangdangnewbooks是我命名的,没有冲突。 4、创建规则,单击新建,名为“当 阅读全文
posted @ 2018-09-16 21:01 长安洛溪·王 阅读(931) 评论(0) 推荐(0) 编辑
  2018年9月15日
摘要: 1、首先,下载网页使用Python的urllib2模块,或者Python HTTP模块request来实现 urllib2会出现问题,解决方法1.重试下载(设置下载次数) 2.设置用户代理 2、其次,三种常见方法 1>网站地图爬虫 (解析网站地图,将使用正则表达式,从<loc>标签中提取出URL) 阅读全文
posted @ 2018-09-15 20:20 长安洛溪·王 阅读(166) 评论(0) 推荐(0) 编辑
摘要: 注:纯文本内容,代码独立另写,属于本人学习总结,无任何商业用途,在此分享,如有错误,还望指教。 1.为什么需要爬虫? 答:目前网络API未完全放开,所以需要网络爬虫知识。 2.爬虫的合法性? 答:爬虫目前处于早期阶段,可爬取一些真实数据,关于私人数据需要获取版权才不至于被人控告。 3.爬虫之前有哪些 阅读全文
posted @ 2018-09-15 19:43 长安洛溪·王 阅读(150) 评论(0) 推荐(0) 编辑
  2018年3月28日
摘要: 一入“程”门深四海...... 有学习就得有练习,我来练一个文本爬虫,代码直接写到下面,抓取的是网页图片,简单好学,适合新手练习。 话不多说直接上干货! 1. 目标网址:https://www.jikexueyuan.com 2. 准备工具 Python2.7 PyCharm5.3 这两个软件Pyt 阅读全文
posted @ 2018-03-28 07:03 长安洛溪·王 阅读(176) 评论(0) 推荐(0) 编辑