2017 年 7月随笔档案 - 梦_鱼

Python-临时文件文件模块-tempfile

摘要：案例：某项目中，从传感器中获得采集数据，每收集到1G的数据后做是数据分析，最终只保留数据分析的结果，收集到的数据放在内存中，将会消耗大量内存，我们希望把这些数据放到一个临时的文件中临时文件不能命名，且关闭后自动删除如何做？导入tempfile下的TemporaryFile、NamedTemp 阅读全文

posted @ 2017-07-30 22:18 梦_鱼阅读(3088) 评论(0) 推荐(0) 编辑

Python-获取文件状态模块-os stat lastat fstat path

摘要：案例：在某项目中，需要获取文件状态，如：如何解决？方法1：通过os原始接口，stat() , lstat(),fstat() stat() 文件所有属性 lstat() 不查看链接文件类型 fstat() 传入参数为文件描叙符方法2：os.path下的方法，更简洁阅读全文

posted @ 2017-07-30 11:09 梦_鱼阅读(2022) 评论(0) 推荐(0) 编辑

Python-设置文件缓冲类型

摘要：案例：将文件内容写入到硬件设备时候，使用系统调用，这类IO操作时间长，为了减小IO操作，通常会使用缓冲区（有足够多数据才能调用）。文件缓冲行为分为：全缓冲，行缓冲，无缓冲如何解决？ open(‘’, ‘’, buffering = a) # buffering设置缓冲行为全缓冲： a 是正整阅读全文

posted @ 2017-07-30 11:07 梦_鱼阅读(1725) 评论(0) 推荐(0) 编辑

Python-py2和py3读写文本区别

摘要：python2和python3的区别？ python 2 str 对应 python3 bytes python 2 uincode 对应 pyhon3 str py2 字符串直接是2进制，unicode编码需要前面加上u py3 2进制需要前面加上 b 文本读写区别？ py2 字符可以直接写到文件阅读全文

posted @ 2017-07-29 23:05 梦_鱼阅读(1021) 评论(0) 推荐(0) 编辑

Python-去除字符串中不想要的字符

摘要：问题：过滤用户输入中前后多余的空白字符 ‘ ++++abc123 ‘ 过滤某windows下编辑文本中的’\r’: ‘hello world \r\n’ 去掉文本中unicode组合字符，音调 "Zhào Qián Sūn Lǐ Zhōu Wú Zhèng Wáng" 如何解决以上问题？去掉两端阅读全文

posted @ 2017-07-29 22:20 梦_鱼阅读(192589) 评论(6) 推荐(4) 编辑

Python-判断字符串是否以某个字符串开头或结尾？

摘要：案例：某文件系统目录下有一系列文件： 1.c 2.py 3.java 4.sh 5.cpp ...... 编写一个程序，给其中所有的.sh文件和.py文件加上可执行权限如何解决这个问题？ 1. 先获取目录下文件 2. 通过startswith() 和endswith()方法判断是否以某个字符开头阅读全文

posted @ 2017-07-29 13:04 梦_鱼阅读(67856) 评论(0) 推荐(0) 编辑

Python-如何拆分含有多种分隔符的字符串?

摘要：案例：把某个字符串依据分隔符拆分，该字符包含不同的多种分隔符，如下 s = '12;;7.osjd;.jshdjdknx+' 其中 ; . + 是分隔符有哪些解决方案？方法1：通过str.split()方法，每次处理一个分隔符方法2：通过re.split()方法，一次性拆分所有字符串，推荐阅读全文

posted @ 2017-07-29 11:13 梦_鱼阅读(14869) 评论(2) 推荐(0) 编辑

Python-如何在一个for循环中迭代多个可迭代对象?

摘要：案例：如何解决？ 1. 方法1：通过索引方法2：通过zip函数，同时迭代3个列表 2. 方法1: 通过 itertools中 chain方法阅读全文

posted @ 2017-07-29 00:21 梦_鱼阅读(3520) 评论(0) 推荐(0) 编辑

Python-对迭代器进行切片操作-itertools模块

摘要：案例：对于某个文件，我只想读取到其中100~200行之间的内容，是否可以通过切片的方式进行读取？我想: 可行？如何解决这个问题？方法1：全部读取到内存中来方法2：把这个文件变成可迭代对象，通过 itertools 中 islice 方法解决该问题的思路阅读全文

posted @ 2017-07-28 11:17 梦_鱼阅读(626) 评论(0) 推荐(0) 编辑

Python-反向迭代和实现反向迭代

摘要：案例：实现一个连续的浮点数发生器,FloatRange，根据给定范围(start, end) 和步进值，产生一些列的浮点数，例如：FloatRange(3,4,0.2)，将产生下列序列：正向：3.0 3.2 …… 4.0 反向：4.0 3.8 …… 3.0 如何实现？方法1：列表翻转方法2：阅读全文

posted @ 2017-07-28 10:22 梦_鱼阅读(701) 评论(0) 推荐(0) 编辑

Python-通过twisted实现数据库异步插入？

摘要：如何通过twisted实现数据库异步插入？ 1. 导入adbapi 2. 生成数据库连接池 3. 执行数据数据库插入操作 4. 打印错误信息，并排错阅读全文

posted @ 2017-07-26 22:07 梦_鱼阅读(3847) 评论(0) 推荐(0) 编辑

scrapy_对传到items的值预处理

摘要：如何实现对值进行预处理？对于传递进items的值，首先明白有两个动作，进和出，那就可以分别对这两个动作进行逻辑处理 input_processor 进处理 output_processor 出处理 MapCompose 绑定处理函数 Join 进行拼接 TakeFirst 出，取列表第一个值阅读全文

posted @ 2017-07-26 07:45 梦_鱼阅读(1037) 评论(0) 推荐(0) 编辑

scrapy_ItemLoader

摘要：什么是Itemloader？一种容器，实现直白高效字段提取直接赋值取值的方式，会出现一下几个问题如何解决以上两个问题？通过scrapy中的ItemLoader模块来处理那如何使用呢？ 1. 声明一个容器 2. 往容器中添加值 3. 加载容器 4. 把值传yield给 items 阅读全文

posted @ 2017-07-26 07:40 梦_鱼阅读(645) 评论(0) 推荐(0) 编辑

scrapy_图片下载

摘要：需要安装第三方库：安装 pillow库如何对图片进行自动下载？首先明白，图片去哪下？图片如何下？保存到哪？ setting：如何获得图片的路径并保存？在pipelines.py中定义一个处理图片的类，继承scrapy中处理的图片的类阅读全文

posted @ 2017-07-26 07:38 梦_鱼阅读(195) 评论(0) 推荐(0) 编辑

scrapy_items

摘要：为什么要items？当数据量多的时候，没有统一的数据管理，统一格式化麻烦 items中除了能添加字段，还能做什么？ 1. 进行预先处理 2. 对从items出去的数据进行处理 3. 写上sql语句逻辑注意点：对于通过itemloda进行解析的值存放在列表中，传递给items时候，会把列表中一个阅读全文

posted @ 2017-07-26 07:27 梦_鱼阅读(161) 评论(0) 推荐(0) 编辑

scrapy_简介页面和详情页面

摘要：如何对提取的URL进行限定？往上找id和class属性值，进行多次层级选择，进行内容限定如何实现获取主页所有urls，然后交给scrapy下载后并解析详情页面，返回结果？(文章简介页面和文章详细页面) 如何实现当前页面href的值为不完全域名，获得完整域名？如何把主页面获取的值传给子页面的解析阅读全文

posted @ 2017-07-26 07:25 梦_鱼阅读(171) 评论(0) 推荐(0) 编辑

scrapy_css

摘要：css选择器标准格式：reponse.css(css选择器::获取值) css选择器有哪些？ * 选择所有节点 #id 选择id的节点 .container 选取所有class包含container的节点 li a 选取所有li元素下的所有a节点 ul + p 选取ul后面的第一个p元素 div#c 阅读全文

posted @ 2017-07-26 07:19 梦_鱼阅读(318) 评论(0) 推荐(0) 编辑

scrapy_xpath

摘要：什么是xpath？ xpth节点关系是什么？ xpth语法 xpath-谓法如何获取抓取节点的值？ /text() 获得文本值 a['href'] 获取一个a节点的href属性值 xpath返回的对象可以继续xpath进行筛选 .extract() 返回data对应的数组值列表对有多个属性的标签阅读全文

posted @ 2017-07-26 07:16 梦_鱼阅读(242) 评论(0) 推荐(0) 编辑

scrapy_创建_调试

摘要：如何创建scrapy项目？输入命令：在当前目录下创建名字叫project_name的scrapy项目命令格式：scrapy startproject 项目名如何启动官方提供的爬虫模版？进入project_name这个项目目录下，输入命令命令格式：“srapy genspider 爬虫模块阅读全文

posted @ 2017-07-26 07:12 梦_鱼阅读(506) 评论(0) 推荐(0) 编辑

爬虫_网页url设计

摘要：为什么需要网页URL设计？每个url不同的结构代表着不同的网页模块和信息的展现形式，为了方便维护与管理网页url怎么设计？分层：主域名，子域名一般形式为：主域名: www.job.com 子域名 head.job.com bolg.job.com 子子域名 head.job.com/ho 阅读全文

posted @ 2017-07-26 07:08 梦_鱼阅读(243) 评论(0) 推荐(0) 编辑

爬虫_url去重策略

摘要：如何对url去重？那，如何实现bloomfilter方式url去重？阅读全文

posted @ 2017-07-26 07:07 梦_鱼阅读(476) 评论(0) 推荐(0) 编辑

爬虫_能做什么？

摘要：scrapy vs requests+beautifulsoup 分布式爬虫使用技术有哪些？ requests + scrapy 互联网有哪些类型网页？静态网页 -- css, js, 动态页面 -- webservice(restapi) -- 动态填充爬虫有哪些作用？阅读全文

posted @ 2017-07-26 07:02 梦_鱼阅读(738) 评论(0) 推荐(0) 编辑

scrapy_开发环境

摘要：scrapy开发所具备的环境 IDE pycharm 数据库 mysql, redis 开发环境 python 3.5 阅读全文

posted @ 2017-07-26 06:58 梦_鱼阅读(119) 评论(0) 推荐(0) 编辑

Python_快速安装第三方库-pip

摘要：如何快速安装第三方库？通过python 豆瓣园源https://pypi.douban.com/simple/进行安装，利用国内网速如何安装？ pip -i install https://pypi.douban.com/simple/ 第三方库名字阅读全文

posted @ 2017-07-26 06:56 梦_鱼阅读(907) 评论(0) 推荐(0) 编辑

Python-找字典中公共key-zip reduce lambda

摘要：场景实例：西班牙足球联赛，每轮球员进球统计：第一轮：｛’1’：1，‘2’：4，‘5’：2，‘7’：3｝第一轮：｛’2’：1，‘5’：4，‘6’：2，‘3’：3｝第一轮：｛’1’：1，‘4’：4，‘6’：2，‘7’：3｝ …… 问题：统计前N轮，都进球的球员？如何解决这个问题呢？方法1：阅读全文

posted @ 2017-07-25 22:45 梦_鱼阅读(337) 评论(0) 推荐(0) 编辑

Python-对字典进行排序

摘要：案例：某班英语成绩以字典的形式存储为： {‘lili’:78, ‘jin’:50, ‘liming’: 30, ......} 依据成绩高低，进行学生成绩排名如何对字典排序？方法1：方法2：按key排序按value排序先把字典变成列表中元组形式，然后通过sorted函数，lambda迭阅读全文

posted @ 2017-07-25 21:58 梦_鱼阅读(391) 评论(0) 推荐(0) 编辑

Python-统计序列中元素

摘要：问题1：随机数列[12,5,8,7,8,9,4,8,5,...] 中出现次数最高的3个元素，他们出现的次数问题2：对某英文文章的单词，进行词频统计，找出出现次数最搞得10个单词，他们出现的次数是多少？上面问题都是以字典的形式保存结果如何解决问题1？方法1: 方法2：使用 collect 阅读全文

posted @ 2017-07-25 21:33 梦_鱼阅读(265) 评论(0) 推荐(0) 编辑

Python-为元组中每个元素命名

摘要：学生信息系统：（名字，年龄,性别，邮箱地址）为了减少存储开支，每个学生的信息都以一个元组形式存放如： ('tom', 18,'male','tom@qq.com' ) ('jom', 18,'mal','jom@qq.com' ) ....... 这种方式存放，如何访问呢？普通方法：出现问阅读全文

posted @ 2017-07-25 20:06 梦_鱼阅读(374) 评论(0) 推荐(0) 编辑

Python-在列表、字典中筛选数据

摘要：实际问题有哪些？问题1如何解决？最普通方法：如何解决列表问题？初始化列表：生成 -10 到 10 的随机数列表，去除负数 1. filter方法: 2. 列表解析：运行速度比较：解析 > filter > 普通如何解决字典？字典解析，筛选数据：如何解决集合问题？逻辑整理无论是解阅读全文

posted @ 2017-07-25 19:50 梦_鱼阅读(20884) 评论(0) 推荐(1) 编辑

爬取知名社区技术文章_setting_5

摘要：# -*- coding: utf-8 -*- # Scrapy settings for JobBole project # # For simplicity, this file contains only settings considered important or # commonly used. You can find more settings consulting the ... 阅读全文

posted @ 2017-07-25 18:13 梦_鱼阅读(177) 评论(0) 推荐(0) 编辑

爬取知名社区技术文章_pipelines_4

摘要：获取字段的存储处理和获取普通的路径阅读全文

posted @ 2017-07-25 12:02 梦_鱼阅读(150) 评论(0) 推荐(0) 编辑

爬取知名社区技术文章_article_3

摘要：爬虫主逻辑处理，获取字段，获取主url和子url 阅读全文

posted @ 2017-07-25 11:59 梦_鱼阅读(149) 评论(0) 推荐(0) 编辑

爬取知名社区技术文章_items_2

摘要：item中定义获取的字段和原始数据进行处理并合法化数据阅读全文

posted @ 2017-07-25 11:55 梦_鱼阅读(214) 评论(0) 推荐(0) 编辑

python_协程方式操作数据库

摘要：# !/usr/bin/python3 # -*- coding: utf-8 -*- import requests import gevent import pymysql from gevent import monkey # 堵塞标记 monkey.patch_all() class SqlSave(object): """协程方式写入数据库""" def... 阅读全文

posted @ 2017-07-22 23:02 梦_鱼阅读(781) 评论(1) 推荐(0) 编辑

爬取知名社区技术文章_分析_1

摘要：软件运行环境是什么？ python 3.50 -- 解释器 scrapy库 -- 爬虫框架 pymsql库 -- 连接mysql数据库 pillow库 -- 下载图片目标网站是什么？伯乐在线：http://blog.jobbole.com/ 所有的技术文章需要爬取哪些数据？文章对应的url 阅读全文

posted @ 2017-07-21 21:50 梦_鱼阅读(208) 评论(0) 推荐(0) 编辑

python_爬百度百科词条

摘要：如何爬取？明确目标：爬取百度百科，定初始百度词条：python，初始URL：http://baike.baidu.com/item/Python，爬取数据量为1000条，值爬取简介，标题，和简介中url 怎么爬：利用谷歌开发工具，分析html结构，分析查询层次与方法怎么写：面向过程和面向对象两个方向环境声明： python 3.50 requests 库 beautifuls... 阅读全文

posted @ 2017-07-17 13:14 梦_鱼阅读(626) 评论(0) 推荐(0) 编辑

python_爬校花图片

摘要：如何用python爬取校花图片并保存到本地来？ 1. 获取什么数据? 校花名字 name 校花所在学校 school 校花图片的url img_ulr 2.如何获取？打开网页http://www.xiaohuar.com/hua/ ，打开开发工具，研究每一张图片对应的html，找规律通过pyth 阅读全文

posted @ 2017-07-16 22:26 梦_鱼阅读(408) 评论(0) 推荐(0) 编辑

python_猜年龄

摘要：猜年龄，有三次机会，如何做？ 1. 检查输入的数据是否合法，通过异常try来处理，并记录输入错误次数 2. 通过累加器，判断是否猜了3次，并提示还剩余多少的机会 3. 当3次错误，跳出猜年龄进阶猜年龄，并且记录最近5次猜的数据，并保存下来，下次打开程序，历史记录依旧保存阅读全文

posted @ 2017-07-16 13:09 梦_鱼阅读(351) 评论(0) 推荐(0) 编辑

python_计算1+……+100中偶数和

摘要：如何计算1+……+100中偶数和？ 1. 把奇数去掉，通过if，判断累加数除以2的余数，是否为1，判断是否是奇数 2. 通过continue 跳过对奇数的累加 #!/usr/bin/python3 def sum_go(sum_to): '''计算1+……+100中偶数和''' count = 0 sum_all = 0 while count <= su... 阅读全文

posted @ 2017-07-16 12:46 梦_鱼阅读(2562) 评论(0) 推荐(0) 编辑

python_大学排名爬取

摘要：逻辑思路是什么？ 1. 获取页面 2. 处理页面，提取信息 3. 格式输出先走面向过程编程： 1. 要定义3个函数，对应以上三个过程 2. 在__main__函数中传入参数，并执行以上三个过程如何走向面向对象？ 1. 输入： url ？+ 想要获得几条信息？ 2. 输出：格式化信息 3. 对于阅读全文

posted @ 2017-07-16 10:25 梦_鱼阅读(263) 评论(0) 推荐(0) 编辑

爬虫_是什么？

摘要：什么是爬虫？从互联网的一些相关网站获得一些相关公布在网页上展现的数据，一种免费获取数据的方式,，但商家并不希望有人获取该数据，会反爬虫获得哪些数据？图片，视频，文字信息购物网站：商品图片商品名字商品价格商品描叙商品评价数商店名字爬虫运行的逻辑？ 1. 获取html页面 2. 解析阅读全文

posted @ 2017-07-07 15:42 梦_鱼阅读(141) 评论(0) 推荐(0) 编辑

梦鱼

07 2017 档案

公告

随笔分类

随笔档案

阅读排行榜