07 2017 档案

摘要:案例: 某项目中,从传感器中获得采集数据,每收集到1G的数据后做是数据分析,最终只保留数据分析的结果,收集到的数据放在内存中,将会消耗大量内存,我们希望把这些数据放到一个临时的文件中 临时文件不能命名,且关闭后自动删除 如何做? 导入tempfile下的TemporaryFile、NamedTemp 阅读全文
posted @ 2017-07-30 22:18 梦_鱼 阅读(3088) 评论(0) 推荐(0) 编辑
摘要:案例: 在某项目中,需要获取文件状态,如: 如何解决? 方法1:通过os原始接口,stat() , lstat(),fstat() stat() 文件所有属性 lstat() 不查看链接文件类型 fstat() 传入参数为文件描叙符 方法2:os.path下的方法,更简洁 阅读全文
posted @ 2017-07-30 11:09 梦_鱼 阅读(2022) 评论(0) 推荐(0) 编辑
摘要:案例: 将文件内容写入到硬件设备时候,使用系统调用,这类IO操作时间长,为了减小IO操作,通常会使用缓冲区(有足够多数据才能调用)。 文件缓冲行为分为:全缓冲,行缓冲,无缓冲 如何解决? open(‘’, ‘’, buffering = a) # buffering设置缓冲行为 全缓冲: a 是正整 阅读全文
posted @ 2017-07-30 11:07 梦_鱼 阅读(1725) 评论(0) 推荐(0) 编辑
摘要:python2和python3的区别? python 2 str 对应 python3 bytes python 2 uincode 对应 pyhon3 str py2 字符串直接是2进制,unicode编码需要前面加上u py3 2进制需要前面加上 b 文本读写区别? py2 字符可以直接写到文件 阅读全文
posted @ 2017-07-29 23:05 梦_鱼 阅读(1021) 评论(0) 推荐(0) 编辑
摘要:问题: 过滤用户输入中前后多余的空白字符 ‘ ++++abc123 ‘ 过滤某windows下编辑文本中的’\r’: ‘hello world \r\n’ 去掉文本中unicode组合字符,音调 "Zhào Qián Sūn Lǐ Zhōu Wú Zhèng Wáng" 如何解决以上问题? 去掉两端 阅读全文
posted @ 2017-07-29 22:20 梦_鱼 阅读(192589) 评论(6) 推荐(4) 编辑
摘要:案例: 某文件系统目录下有一系列文件: 1.c 2.py 3.java 4.sh 5.cpp ...... 编写一个程序,给其中所有的.sh文件和.py文件加上可执行权限 如何解决这个问题? 1. 先获取目录下文件 2. 通过startswith() 和endswith()方法判断是否以某个字符开头 阅读全文
posted @ 2017-07-29 13:04 梦_鱼 阅读(67856) 评论(0) 推荐(0) 编辑
摘要:案例: 把某个字符串依据分隔符拆分,该字符包含不同的多种分隔符,如下 s = '12;;7.osjd;.jshdjdknx+' 其中 ; . + 是分隔符 有哪些解决方案? 方法1:通过str.split()方法,每次处理一个分隔符 方法2:通过re.split()方法,一次性拆分所有字符串,推荐 阅读全文
posted @ 2017-07-29 11:13 梦_鱼 阅读(14869) 评论(2) 推荐(0) 编辑
摘要:案例: 如何解决? 1. 方法1:通过索引 方法2: 通过zip函数,同时迭代3个列表 2. 方法1: 通过 itertools中 chain方法 阅读全文
posted @ 2017-07-29 00:21 梦_鱼 阅读(3520) 评论(0) 推荐(0) 编辑
摘要:案例: 对于某个文件,我只想读取到其中100~200行之间的内容,是否可以通过切片的方式进行读取? 我想: 可行? 如何解决这个问题? 方法1: 全部读取到内存中来 方法2: 把这个文件变成可迭代对象,通过 itertools 中 islice 方法 解决该问题的思路 阅读全文
posted @ 2017-07-28 11:17 梦_鱼 阅读(626) 评论(0) 推荐(0) 编辑
摘要:案例: 实现一个连续的浮点数发生器,FloatRange,根据给定范围(start, end) 和步进值,产生一些列的浮点数,例如:FloatRange(3,4,0.2),将产生下列序列: 正向:3.0 3.2 …… 4.0 反向:4.0 3.8 …… 3.0 如何实现? 方法1:列表翻转 方法2: 阅读全文
posted @ 2017-07-28 10:22 梦_鱼 阅读(701) 评论(0) 推荐(0) 编辑
摘要:如何通过twisted实现数据库异步插入? 1. 导入adbapi 2. 生成数据库连接池 3. 执行数据数据库插入操作 4. 打印错误信息,并排错 阅读全文
posted @ 2017-07-26 22:07 梦_鱼 阅读(3847) 评论(0) 推荐(0) 编辑
摘要:如何实现对值进行预处理? 对于传递进items的值,首先明白有两个动作,进和出,那就可以分别对这两个动作进行逻辑处理 input_processor 进 处理 output_processor 出 处理 MapCompose 绑定处理函数 Join 进行拼接 TakeFirst 出,取列表第一个值 阅读全文
posted @ 2017-07-26 07:45 梦_鱼 阅读(1037) 评论(0) 推荐(0) 编辑
摘要:什么是Itemloader? 一种容器,实现直白高效字段提取 直接赋值取值的方式,会出现一下几个问题 如何解决以上两个问题? 通过scrapy中的ItemLoader模块来处理 那如何使用呢? 1. 声明一个容器 2. 往容器中添加值 3. 加载容器 4. 把值传yield给 items 阅读全文
posted @ 2017-07-26 07:40 梦_鱼 阅读(645) 评论(0) 推荐(0) 编辑
摘要:需要安装第三方库: 安装 pillow库 如何对图片进行自动下载? 首先明白,图片去哪下?图片如何下?保存到哪? setting: 如何获得图片的路径并保存? 在pipelines.py中定义一个处理图片的类,继承scrapy中处理的图片的类 阅读全文
posted @ 2017-07-26 07:38 梦_鱼 阅读(195) 评论(0) 推荐(0) 编辑
摘要:为什么要items? 当数据量多的时候,没有统一的数据管理,统一格式化麻烦 items中除了能添加字段,还能做什么? 1. 进行预先处理 2. 对从items出去的数据进行处理 3. 写上sql语句逻辑 注意点: 对于通过itemloda进行解析的值存放在列表中,传递给items时候,会把列表中一个 阅读全文
posted @ 2017-07-26 07:27 梦_鱼 阅读(161) 评论(0) 推荐(0) 编辑
摘要:如何对提取的URL进行限定? 往上找id和class属性值,进行多次层级选择,进行内容限定 如何实现获取主页所有urls,然后交给scrapy下载后并解析详情页面,返回结果?(文章简介页面和文章详细页面) 如何实现当前页面href的值为不完全域名,获得完整域名? 如何把主页面获取的值传给子页面的解析 阅读全文
posted @ 2017-07-26 07:25 梦_鱼 阅读(171) 评论(0) 推荐(0) 编辑
摘要:css选择器标准格式:reponse.css(css选择器::获取值) css选择器有哪些? * 选择所有节点 #id 选择id的节点 .container 选取所有class包含container的节点 li a 选取所有li元素下的所有a节点 ul + p 选取ul后面的第一个p元素 div#c 阅读全文
posted @ 2017-07-26 07:19 梦_鱼 阅读(318) 评论(0) 推荐(0) 编辑
摘要:什么是xpath? xpth节点关系是什么? xpth语法 xpath-谓法 如何获取抓取节点的值? /text() 获得文本值 a['href'] 获取一个a节点的href属性值 xpath返回的对象可以继续xpath进行筛选 .extract() 返回data对应的数组值列表 对有多个属性的标签 阅读全文
posted @ 2017-07-26 07:16 梦_鱼 阅读(242) 评论(0) 推荐(0) 编辑
摘要:如何创建scrapy项目? 输入命令: 在当前目录下创建名字叫project_name的scrapy项目 命令格式:scrapy startproject 项目名 如何启动官方提供的爬虫模版? 进入project_name这个项目目录下,输入命令 命令格式:“srapy genspider 爬虫模块 阅读全文
posted @ 2017-07-26 07:12 梦_鱼 阅读(506) 评论(0) 推荐(0) 编辑
摘要:为什么需要网页URL设计? 每个url不同的结构代表着不同的网页模块和信息的展现形式,为了方便维护与管理 网页url怎么设计? 分层: 主域名,子域名 一般形式为: 主域名: www.job.com 子域名 head.job.com bolg.job.com 子子域名 head.job.com/ho 阅读全文
posted @ 2017-07-26 07:08 梦_鱼 阅读(243) 评论(0) 推荐(0) 编辑
摘要:如何对url去重? 那,如何实现bloomfilter方式url去重? 阅读全文
posted @ 2017-07-26 07:07 梦_鱼 阅读(476) 评论(0) 推荐(0) 编辑
摘要:scrapy vs requests+beautifulsoup 分布式爬虫使用技术有哪些? requests + scrapy 互联网有哪些类型网页? 静态网页 -- css, js, 动态页面 -- webservice(restapi) -- 动态填充 爬虫有哪些作用? 阅读全文
posted @ 2017-07-26 07:02 梦_鱼 阅读(738) 评论(0) 推荐(0) 编辑
摘要:scrapy开发所具备的环境 IDE pycharm 数据库 mysql, redis 开发环境 python 3.5 阅读全文
posted @ 2017-07-26 06:58 梦_鱼 阅读(119) 评论(0) 推荐(0) 编辑
摘要:如何快速安装第三方库? 通过python 豆瓣园源https://pypi.douban.com/simple/进行安装,利用国内网速 如何安装? pip -i install https://pypi.douban.com/simple/ 第三方库名字 阅读全文
posted @ 2017-07-26 06:56 梦_鱼 阅读(907) 评论(0) 推荐(0) 编辑
摘要:场景实例: 西班牙足球联赛,每轮球员进球统计: 第一轮:{’1’:1,‘2’:4,‘5’:2,‘7’:3} 第一轮:{’2’:1,‘5’:4,‘6’:2,‘3’:3} 第一轮:{’1’:1,‘4’:4,‘6’:2,‘7’:3} …… 问题:统计前N轮,都进球的球员? 如何解决这个问题呢? 方法1: 阅读全文
posted @ 2017-07-25 22:45 梦_鱼 阅读(337) 评论(0) 推荐(0) 编辑
摘要:案例: 某班英语成绩以字典的形式存储为: {‘lili’:78, ‘jin’:50, ‘liming’: 30, ......} 依据成绩高低,进行学生成绩排名 如何对字典排序? 方法1: 方法2: 按key排序 按value排序 先把字典变成列表中元组形式,然后通过sorted函数,lambda迭 阅读全文
posted @ 2017-07-25 21:58 梦_鱼 阅读(391) 评论(0) 推荐(0) 编辑
摘要:问题1: 随机数列[12,5,8,7,8,9,4,8,5,...] 中出现次数最高的3个元素,他们出现的次数 问题2: 对某英文文章的单词,进行词频统计,找出出现次数最搞得10个单词,他们出现的次数是多少? 上面问题都是以字典的形式保存结果 如何解决问题1? 方法1: 方法2: 使用 collect 阅读全文
posted @ 2017-07-25 21:33 梦_鱼 阅读(265) 评论(0) 推荐(0) 编辑
摘要:学生信息系统: (名字,年龄,性别,邮箱地址) 为了减少存储开支,每个学生的信息都以一个元组形式存放 如: ('tom', 18,'male','tom@qq.com' ) ('jom', 18,'mal','jom@qq.com' ) ....... 这种方式存放,如何访问呢? 普通方法: 出现问 阅读全文
posted @ 2017-07-25 20:06 梦_鱼 阅读(374) 评论(0) 推荐(0) 编辑
摘要:实际问题有哪些? 问题1如何解决? 最普通方法: 如何解决列表问题? 初始化列表: 生成 -10 到 10 的随机数列表,去除负数 1. filter方法: 2. 列表解析: 运行速度比较:解析 > filter > 普通 如何解决字典? 字典解析,筛选数据: 如何解决集合问题? 逻辑整理 无论是解 阅读全文
posted @ 2017-07-25 19:50 梦_鱼 阅读(20884) 评论(0) 推荐(1) 编辑
摘要:# -*- coding: utf-8 -*- # Scrapy settings for JobBole project # # For simplicity, this file contains only settings considered important or # commonly used. You can find more settings consulting the ... 阅读全文
posted @ 2017-07-25 18:13 梦_鱼 阅读(177) 评论(0) 推荐(0) 编辑
摘要:获取字段的存储处理和获取普通的路径 阅读全文
posted @ 2017-07-25 12:02 梦_鱼 阅读(150) 评论(0) 推荐(0) 编辑
摘要:爬虫主逻辑处理,获取字段,获取主url和子url 阅读全文
posted @ 2017-07-25 11:59 梦_鱼 阅读(149) 评论(0) 推荐(0) 编辑
摘要:item中定义获取的字段和原始数据进行处理并合法化数据 阅读全文
posted @ 2017-07-25 11:55 梦_鱼 阅读(214) 评论(0) 推荐(0) 编辑
摘要:# !/usr/bin/python3 # -*- coding: utf-8 -*- import requests import gevent import pymysql from gevent import monkey # 堵塞标记 monkey.patch_all() class SqlSave(object): """协程方式写入数据库""" def... 阅读全文
posted @ 2017-07-22 23:02 梦_鱼 阅读(781) 评论(1) 推荐(0) 编辑
摘要:软件运行环境是什么? python 3.50 -- 解释器 scrapy库 -- 爬虫框架 pymsql库 -- 连接mysql数据库 pillow库 -- 下载图片 目标网站是什么? 伯乐在线:http://blog.jobbole.com/ 所有的技术文章 需要爬取哪些数据? 文章对应的url 阅读全文
posted @ 2017-07-21 21:50 梦_鱼 阅读(208) 评论(0) 推荐(0) 编辑
摘要:如何爬取? 明确目标:爬取百度百科,定初始百度词条:python,初始URL:http://baike.baidu.com/item/Python,爬取数据量为1000条,值爬取简介,标题,和简介中url 怎么爬: 利用谷歌开发工具,分析html结构,分析查询层次与方法 怎么写: 面向过程和面向对象两个方向环境声明: python 3.50 requests 库 beautifuls... 阅读全文
posted @ 2017-07-17 13:14 梦_鱼 阅读(626) 评论(0) 推荐(0) 编辑
摘要:如何用python爬取校花图片并保存到本地来? 1. 获取什么数据? 校花名字 name 校花所在学校 school 校花图片的url img_ulr 2.如何获取? 打开网页http://www.xiaohuar.com/hua/ ,打开开发工具,研究每一张图片对应的html,找规律 通过pyth 阅读全文
posted @ 2017-07-16 22:26 梦_鱼 阅读(408) 评论(0) 推荐(0) 编辑
摘要:猜年龄,有三次机会,如何做? 1. 检查 输入的数据是否合法,通过异常try来处理,并记录 输入错误次数 2. 通过累加器,判断是否猜了3次,并提示还剩余多少的机会 3. 当3次错误,跳出 猜年龄进阶 猜年龄,并且记录最近5次猜的数据,并保存下来,下次打开程序,历史记录依旧保存 阅读全文
posted @ 2017-07-16 13:09 梦_鱼 阅读(351) 评论(0) 推荐(0) 编辑
摘要:如何计算1+……+100中偶数和? 1. 把奇数去掉,通过if,判断累加数除以2的余数,是否为1,判断是否是奇数 2. 通过continue 跳过对奇数的累加 #!/usr/bin/python3 def sum_go(sum_to): '''计算1+……+100中偶数和''' count = 0 sum_all = 0 while count <= su... 阅读全文
posted @ 2017-07-16 12:46 梦_鱼 阅读(2562) 评论(0) 推荐(0) 编辑
摘要:逻辑思路是什么? 1. 获取页面 2. 处理页面,提取信息 3. 格式输出 先走面向过程编程: 1. 要定义3个函数,对应以上三个过程 2. 在__main__函数中传入参数,并执行以上三个过程 如何走向面向对象? 1. 输入: url ?+ 想要获得几条信息? 2. 输出: 格式化信息 3. 对于 阅读全文
posted @ 2017-07-16 10:25 梦_鱼 阅读(263) 评论(0) 推荐(0) 编辑
摘要:什么是爬虫? 从互联网的一些相关网站获得一些相关公布在网页上展现的数据,一种免费获取数据的方式,,但商家并不希望有人获取该数据,会反爬虫 获得哪些数据? 图片,视频,文字信息 购物网站:商品图片 商品名字 商品价格 商品描叙 商品评价数 商店名字 爬虫运行的逻辑? 1. 获取html页面 2. 解析 阅读全文
posted @ 2017-07-07 15:42 梦_鱼 阅读(141) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示