长安洛溪·王 - 博客园

2018年9月16日

摘要： 1、下载metaseeker（一款比较实用的网站数据采集程序） 2、将所要爬取的网页复制到网址里，按回车。我选择的是当当网新书排行榜页面，标2的地方表示已经导入到软件里了。 3、命名主题，查重，查看是否名称冲突。Dangdangnewbooks是我命名的，没有冲突。 4、创建规则，单击新建，名为“当阅读全文

posted @ 2018-09-16 21:01 长安洛溪·王阅读(1018) 评论(0) 推荐(0)

2018年9月15日

《用Python写爬虫》学习笔记（二）编写第一个网络爬虫

摘要： 1、首先，下载网页使用Python的urllib2模块，或者Python HTTP模块request来实现 urllib2会出现问题，解决方法1.重试下载（设置下载次数） 2.设置用户代理 2、其次，三种常见方法 1>网站地图爬虫（解析网站地图，将使用正则表达式，从<loc>标签中提取出URL) 阅读全文

posted @ 2018-09-15 20:20 长安洛溪·王阅读(189) 评论(0) 推荐(0)

《用Python写爬虫》学习笔记（一）

摘要：注：纯文本内容，代码独立另写，属于本人学习总结，无任何商业用途，在此分享，如有错误，还望指教。 1.为什么需要爬虫？答：目前网络API未完全放开，所以需要网络爬虫知识。 2.爬虫的合法性？答：爬虫目前处于早期阶段，可爬取一些真实数据，关于私人数据需要获取版权才不至于被人控告。 3.爬虫之前有哪些阅读全文

posted @ 2018-09-15 19:43 长安洛溪·王阅读(169) 评论(0) 推荐(0)

2018年3月28日

python练习小文章-文本爬虫

摘要：一入“程”门深四海...... 有学习就得有练习，我来练一个文本爬虫，代码直接写到下面，抓取的是网页图片，简单好学，适合新手练习。话不多说直接上干货！ 1. 目标网址：https://www.jikexueyuan.com 2. 准备工具 Python2.7 PyCharm5.3 这两个软件Pyt 阅读全文

posted @ 2018-03-28 07:03 长安洛溪·王阅读(201) 评论(0) 推荐(0)

公告