摘要: 项目名称:抓取360网站图片 目标url:http://image.so.com 项目描述:利用Scrapy的ImagePipeline抓取360网站的图片 要利用Scrapy抓取图片,第一步还是先定义item 第二步是在settings.py中打开ImagePipeline,然后定义一下文件的存储 阅读全文
posted @ 2018-07-18 15:26 Alfredfly 阅读(344) 评论(0) 推荐(0) 编辑
摘要: ValueError:Missing scheme in request url:h 相关URL必须存放在list中。 启动爬虫没反应 可能是因为name或者start_urls拼写错误(所以最好还是用genspider指令创建爬虫文件) 阅读全文
posted @ 2018-07-18 01:22 Alfredfly 阅读(279) 评论(0) 推荐(0) 编辑
摘要: 项目名称:qidian 项目描述:利用scrapy抓取七点中文网的“完本榜”总榜的500本小说,抓取内容包括:小说名称,作者,类别,然后保存为CSV文件 目标URL:https://www.qidian.com/rank/fin?style=1 项目需求: 1.小说名称 2.作者 3.小说类别 第一 阅读全文
posted @ 2018-07-17 22:11 Alfredfly 阅读(784) 评论(0) 推荐(0) 编辑
摘要: 项目名称:mybooks 项目URL:books.toscrape.com 项目需求: 1.书籍名称 2.价格 3.保存在Excel表格中 第一步:在shell中创建scrapy项目 第二步:创建spider文件 进入刚刚创建的项目目录,mybooks/mybooks/,在这里创建一个spider. 阅读全文
posted @ 2018-07-17 03:03 Alfredfly 阅读(714) 评论(0) 推荐(0) 编辑
摘要: open函数第一个参数是文件名称(包括路径),第二个参数是操作模式。 对于第二个参数有如下的选择: w:向文件写入内容 a:追加写入,就是不修改文件原来的内容,在文件后面写入 r+:既可以读文件,又可以向文件写入内容 w+:同上 a+:同上 rb:读取二进制文件,例如图片文件 wb:写入二进制数据, 阅读全文
posted @ 2018-07-12 19:49 Alfredfly 阅读(2814) 评论(0) 推荐(0) 编辑
摘要: os.getcwd() :查看当前所在路径。 os.chdir():改变当前工作目录。 os.listdir():列举目录下的所有文件,返回一个列表。 os.path.split():将路径分解为(文件夹,文件名)。 os.path.getmtime(path):文件或文件夹的最后修改时间,从新纪元 阅读全文
posted @ 2018-05-11 19:07 Alfredfly 阅读(203) 评论(0) 推荐(0) 编辑
摘要: 第五章:条件、循环和其他语句 1. bool():bool函数能够返回参数的布尔类型True或者False。 2. 相等运算符是两个等号 ==。 3. is 是同一性运算符。 4. 布尔运算符:and,or,not 5. a if b else:如果b为真,则返回a,否则,返回b。 6. 关键字as 阅读全文
posted @ 2018-05-11 00:17 Alfredfly 阅读(166) 评论(0) 推荐(0) 编辑
摘要: import threading threading模块里提供的类。 1. Thread:表示一个线程的执行的对象。 2. Lock:锁原语对象 3. Rlock:可重入锁对象。使单线程可以再次获得已经获得的锁。 4. Condition:条件变量对象。能让一个线程停下来,等待其他线程满足了“某个” 阅读全文
posted @ 2018-05-10 12:57 Alfredfly 阅读(304) 评论(0) 推荐(0) 编辑
摘要: 运行环境:Windows7,python2.7.13 需求分析:爬取豆瓣电影网排行的Top250片名。 步骤: 1. 抓取网站源码。 2. 利用正则表达式提取片名。 3. 把电影片名保存到文本中。 4. 重复以上3个步骤,直至Top250的片名全部保存完毕。 步骤1:抓取网站源码。 分析网站的url 阅读全文
posted @ 2018-05-08 21:02 Alfredfly 阅读(1177) 评论(0) 推荐(0) 编辑
摘要: import re re模块中的函数: 1. re.compile(pattern[,flags]):根据包含正则表达式的字符串创建模式对象。 2. re.findall(pattern,string):列出所有匹配项。返回一个列表。 3. re.sarch(pattern,string[,flag 阅读全文
posted @ 2018-05-07 20:50 Alfredfly 阅读(191) 评论(0) 推荐(0) 编辑