摘要: 好比Django的Debuge 与前端进行交互时的方便,但是Scrapy 不自带,所以我们写一个main文件来debuge 作用:通过cmd 命令启动爬虫 阅读全文
posted @ 2017-05-15 21:23 若鸟 阅读(2044) 评论(0) 推荐(0) 编辑
摘要: xpath简介 1,使用路径表达式在xml和html中解析 2,包含标准函数路(所有库支持的xpath语法一致) 3,W3C标准 节点: 基本语法: 举例元素标签为artical标签 一: artical 选取所有artical元素的子节点 /artical 选取根元素artical artical 阅读全文
posted @ 2017-05-15 21:12 若鸟 阅读(557) 评论(0) 推荐(0) 编辑
摘要: Scrapy安装: 1,首先进入虚拟环境 2,使用国内豆瓣源进行安装,快! 3,特殊情况出错:缺少c++,解决办法:自己安装了个vs2015 基本命令: 创建工程: 在这里只能通过命令行:pycharm 没有加载scrapy,与Django 不一样 命令: #注意:cd 到所需创建工程的目录下 sc 阅读全文
posted @ 2017-05-14 21:26 若鸟 阅读(3595) 评论(0) 推荐(1) 编辑
摘要: 首先了解一下历史,但是本篇文章冗杂,如老太太裹脚布 又臭又长 编码历史: 1. 计算机只能处理数字,文本文件只有转换为数字 才能处理。8bit==1字节 所以一个字节能表示的最大的数就是255 2. 美国人发明计算机。用英语,所有一个字节就表示了所有字符 就是ASCII(一个字节) 编码就是美国人的 阅读全文
posted @ 2017-05-14 11:00 若鸟 阅读(384) 评论(0) 推荐(0) 编辑
摘要: 技术选型: Scrapy vs requsts+beautifulsoup 1,reqests,beautifulsoup都是库,Scrapy是框架 2,Scrapy中可以加入requests beautifulsoup 3,Scrapy基于twisted,异步IO框架,性能最大的优势 4,Scra 阅读全文
posted @ 2017-05-13 17:01 若鸟 阅读(476) 评论(0) 推荐(0) 编辑
摘要: 对可迭代迭代进行连接,返回一个可迭代对象 两种方式: 并行连接 zip() 串行连接 itertools.chain 运行截图: 阅读全文
posted @ 2017-05-13 11:21 若鸟 阅读(995) 评论(0) 推荐(0) 编辑
摘要: #利用生成器生成一个可迭代对象#需求:生成可迭代对象,输出指定范围内的素数,利用生成器产生一个可迭代对象#生成器:本身是可迭代的,只是 yield 好比return返回,yield返回后函数冻结状态,当再次调用时从冻结状态开始 对迭代器进行切片操作,跟列表类似,返回的依旧是可迭代类型的 阅读全文
posted @ 2017-05-13 10:04 若鸟 阅读(305) 评论(0) 推荐(0) 编辑
摘要: 队列:先进先出的线性表(FIFO),只允许在一段插入并在另一端取出 以下是python实现 阅读全文
posted @ 2017-05-12 21:51 若鸟 阅读(1025) 评论(0) 推荐(0) 编辑
摘要: 装饰器: 本质属性:为函数增加新功能的函数,只是有个语法糖,显得高大上而已 阅读全文
posted @ 2017-05-12 20:45 若鸟 阅读(191) 评论(0) 推荐(0) 编辑
摘要: 可迭代对象和迭代器对象;前者生成后者 比喻:10个硬币都可以一一数(迭代),放入到存钱罐(可以取钱的那种),那这个存钱罐就是一个迭代器对象 需求:从网络抓取各个城市气温信息,并依次显示若依次抓取较多的城市,有较高的访问延迟,并且浪费存储空间,希望以 “用时访问”策略 将所有的城市气温封装在一个对象, 阅读全文
posted @ 2017-05-12 15:11 若鸟 阅读(267) 评论(0) 推荐(0) 编辑