06 2018 档案

摘要:异步网络模块之aiohttp的使用(一) 平时我们也许用的更多的是requests模块,或者是requests_hml模块,但是他们都属于阻塞类型的不支持异步,速度很难提高,于是后来出现了异步的grequests,开始了异步网络请求,速度得到了大大的提升,但是今天我们要说的另外的一个比较异步网络请求 阅读全文
posted @ 2018-06-30 22:31 公众号python学习开发 阅读(5922) 评论(0) 推荐(1)
摘要:第一次创建git项目注意事项还是挺多了,这里就写个操作步骤,方便以后查看。 网页部分 1.打开自己的主页,点击“New repository”创建远程仓库。 2.填写信息 本地部分 前提: 下载git并安装,https://git-scm.com/downloads。安装成功之后在需要的上传的工程里 阅读全文
posted @ 2018-06-29 16:28 公众号python学习开发 阅读(1196) 评论(0) 推荐(0)
摘要:#更新记录20180630 1。添加存在文件跳过逻辑 2。非法文件路径名字去除逻辑的添加 阅读全文
posted @ 2018-06-29 15:04 公众号python学习开发 阅读(1046) 评论(0) 推荐(0)
摘要:这里贴出Socket.IO官网 一.Socket.IO的介绍 Socket.IO支持及时、双向与基于事件的交流。它可以在每个平台、每个浏览器和每个设备上工作,可靠性和速度同样稳定。 实时分析:将数据推送到客户端,这些客户端会被表示为实时计数器,图表或日志客户。 实时通信和聊天:只需几行代码便可写成一 阅读全文
posted @ 2018-06-28 14:02 公众号python学习开发 阅读(764) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2018-06-28 12:03 公众号python学习开发 阅读(11) 评论(0) 推荐(0)
摘要:我自己在用socket.io开发,对官方网站上的文档,进行简单的整理,然后自己写了一个简单的聊天程序。 最最开始 先安装socket.io: 利用Node的搭建Http服务 分为两个文件,服务端文件app.js和客户端index.html 这里需要注意的是: require(‘socket.io’) 阅读全文
posted @ 2018-06-28 09:11 公众号python学习开发 阅读(1516) 评论(0) 推荐(0)
摘要:简介 anyproxy是一款可以高度定制的代理服务器,基于nodejs。 特征 支持https明文代理 支持低网速模拟 支持二次开发,可以用javascript控制代理的全部流程,搭建前端个性化调试环境 提供web版界面,观测请求情况 设计 anyproxy把http通信过程中的各个阶段进行抽离,分 阅读全文
posted @ 2018-06-26 13:51 公众号python学习开发 阅读(4961) 评论(0) 推荐(0)
摘要:1. 解释什么是栈溢出,在什么情况下可能出现。 栈溢出是由于C语言系列没有内置检查机制来确保复制到缓冲区的数据不得大于缓冲区的大小,因此当这个数据足够大的时候,将会溢出缓冲区的范围。在Python中,函数调用是通过栈(stack)这种数据结构实现的,每当进入一个函数调用,栈就会加一层栈帧,每当函数返 阅读全文
posted @ 2018-06-25 22:46 公众号python学习开发 阅读(1470) 评论(0) 推荐(1)
摘要:上次我们简单了解了一下什么是单例模式,今天我们继续探究。上次的内容点这 python设计模式之单例模式(一) 上次们讨论的是GoF的单例设计模式,该模式是指:一个类有且只有一个对象。通常我们需要的是让实例共享一个相同的装态 比如数据库连接。Alex Martelli的建议的是开发人员应该关注状态和行 阅读全文
posted @ 2018-06-23 16:43 公众号python学习开发 阅读(375) 评论(0) 推荐(0)
摘要:单例设计模式的概念: 单例设计模式即确保类有且只有一个特定类型的对象,并提供全局访问点。一般我们操作数据库的时候为了避免统一资源产生互相冲突,创建单例模式可以维护数据的唯一性。 单例模式的特性: 确保类有且只有一个对象被创建。 为对象提供一个访问点,以使程序可以全局访问对象。 控制共享资源的并行访问 阅读全文
posted @ 2018-06-23 00:29 公众号python学习开发 阅读(388) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。
posted @ 2018-06-21 14:06 公众号python学习开发 阅读(3) 评论(0) 推荐(0)
摘要:python并发模块之concurrent.futures(二) 上次我们简单的了解下,模块的一些基本方法和用法,这里我们进一步对concurrent.futures做一个了解和拓展.上次的内容点这。python并发模块之concurrent.futures(二)以下载图片为例子,下面的程序是顺序下 阅读全文
posted @ 2018-06-21 11:10 公众号python学习开发 阅读(248) 评论(0) 推荐(0)
摘要:1.数据插入的时候报错:not enough arguments for format string,大概意思就是说没有足够的参数格式化字符串。 我的数据库插入方法是这样的 通过调试我得知程序在执行cursor.execute的时候报了该错误。 为了进一步了解原因,我找到了关于实现execute的方 阅读全文
posted @ 2018-06-21 10:11 公众号python学习开发 阅读(6255) 评论(0) 推荐(0)
摘要:/*下载工具*/ package main import ( "fmt" //go语言版本的jquery "github.com/PuerkitoBio/goquery" "os" "sync" "strings" //go语言版本的request "github.com/levigross/gre 阅读全文
posted @ 2018-06-20 16:12 公众号python学习开发 阅读(1747) 评论(0) 推荐(0)
摘要:Python3.2开始,标准库为我们提供了concurrent.futures模块,它提供了ThreadPoolExecutor和ProcessPoolExecutor两个类,实现了对threading和multiprocessing的进一步抽象,对编写线程池/进程池提供了直接的支持,他属于上层的封 阅读全文
posted @ 2018-06-20 13:22 公众号python学习开发 阅读(4900) 评论(0) 推荐(0)
摘要:整理一下最近被问到的一些高频率的面试问题。总结一下方便日后复习巩固用,同时希望可以帮助一些朋友们。 1.python的基本数据类型 主要核心类型分为两类不可变类型:数字(int float bool complex),字符串(string),元祖(tuple),不可变集合(frozenset)。 可 阅读全文
posted @ 2018-06-20 00:11 公众号python学习开发 阅读(1189) 评论(0) 推荐(0)
摘要:python selenium 三种等待方式详解 引言: 当你觉得你的定位没有问题,但是却直接报了元素不可见,那你就可以考虑是不是因为程序运行太快或者页面加载太慢造成了元素不可见,那就必须要加等待了,等待元素可见再继续运行程序; 正文: 1.强制等待(sleep) 设置等待最简单的方法就是强制等待, 阅读全文
posted @ 2018-06-19 10:53 公众号python学习开发 阅读(435) 评论(0) 推荐(0)
摘要:1.今天早上运行程序的时候,发现我在循环点击一个元素的时候出现了错误 大概的意思就是这个页面的元素引用已经过期了,在当前网页中找不到这个元素,我的代码大概是这个样子。 解决方法:去循环个数或者定位方式,在循环中获取元素。 阅读全文
posted @ 2018-06-19 08:30 公众号python学习开发 阅读(346) 评论(0) 推荐(0)
摘要:谷歌浏览器,对于作为程序员的我们来说可以是居家必备了,应该用的相当的熟悉了,我们用的最多的应该是network选项吧,一般用来分析网页加载的请求信息,比如post参数之类的,这些基本的功能基本上够用了,今天我说的不是network模块,而是console命令模块的使用, 关于console命令的使用 阅读全文
posted @ 2018-06-18 17:38 公众号python学习开发 阅读(19573) 评论(3) 推荐(0)
摘要:#!/usr/bin/env python # encoding: utf-8 from itertools import zip_longest # ➍ # zip并行从输入的各个可迭代对象中获取元素,产 # 出由 N 个元素组成的元组,只要有一个可迭代 # 的对象到头了,就默默地停止 #--------------------------------------------- #zip... 阅读全文
posted @ 2018-06-15 11:25 公众号python学习开发 阅读(370) 评论(0) 推荐(0)
摘要:1.预登陆打开微博首页进行登陆,打开Charles抓包然后看请求信息,预登陆的链接需要一下以下几个参数 https://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.preloginCallBack 阅读全文
posted @ 2018-06-15 10:32 公众号python学习开发 阅读(542) 评论(0) 推荐(0)
摘要:单例模式 顾名思义,只有一个实例,如果存在了就不创建了 #!/usr/bin/env python# encoding: utf-8 class Singleton(): def __new__(cls,*args,**kwargs): if not hasattr(cls,'_inst'): cl 阅读全文
posted @ 2018-06-13 11:20 公众号python学习开发 阅读(164) 评论(0) 推荐(0)
摘要:web.py中文字符串网页显示乱码的解决 #!/usr/bin/env python # encoding: utf-8 import weburls = ( '/', 'index')class index: def GET(self): web.header('Content-Type', 't 阅读全文
posted @ 2018-06-13 10:15 公众号python学习开发 阅读(2252) 评论(0) 推荐(0)
摘要:今天用pyhon安装完web.py的时候,点击运行还是没错的,但是在网页输入链接就会报错。1.安装我是这样的: pip install web.py 2.运行后错误信息是这样: AttributeError: module 'six.moves.urllib_parse' has no attrib 阅读全文
posted @ 2018-06-13 10:08 公众号python学习开发 阅读(1627) 评论(0) 推荐(0)
摘要:调度模块也就是对之前所以的模块的一个调度,作为一个流水的入口。 下面的代码的获取数据部分暂时没有写,细节部分在实际开发中,要根据要求再定义,这里说的是使用方法 阅读全文
posted @ 2018-06-12 22:19 公众号python学习开发 阅读(951) 评论(0) 推荐(0)
摘要:数据存储模块的话,目前我这用的比较多的是存储到mysql,所以下面的这个例子也是保存到mysql,用到了ORM映射的SQLAlchemy ,(ORM:Object-Relational Mapping,把关系数据库的表结构映射到对象上),使用create_engine()来初始化数据库连接。 SQL 阅读全文
posted @ 2018-06-12 21:56 公众号python学习开发 阅读(994) 评论(0) 推荐(0)
摘要:这个就比较简单了没有什么好强调的,如果返回的json 就是直接按照键值取,如果是网页就是用lxml模块的html进行xpath解析。 阅读全文
posted @ 2018-06-12 21:23 公众号python学习开发 阅读(279) 评论(0) 推荐(0)
摘要:HTML下载模块 该模块主要是根据提供的url进行下载对应url的网页内容。使用模块requets-HTML,加入重试逻辑以及设定最大重试次数,同时限制访问时间,防止长时间未响应造成程序假死现象。 根据返回的状态码进行判断如果访问成功则返回源码,否则开始重试,如果出现异常也是进行重试操作。 阅读全文
posted @ 2018-06-12 21:08 公众号python学习开发 阅读(508) 评论(0) 推荐(0)
摘要:URL管理器模块 一般是用来维护爬取的url和未爬取的url已经新添加的url的,如果队列中已经存在了当前爬取的url了就不需要再重复爬取了,另外防止造成一个死循环。举个例子 我爬www.baidu.com 其中我抓取的列表中有music.baidu.om,然后我再继续抓取该页面的所有链接,但是其中 阅读全文
posted @ 2018-06-12 20:16 公众号python学习开发 阅读(566) 评论(0) 推荐(0)
摘要:1.爬虫有哪些模块? 答: URL管理模块:维护已经爬取的URL集合和未爬取的URL集合,并提供获取新URL链接的接口 HTML下载模块:从URL管理器中获取未爬取的URL链接并下载HTML网页 HTML解析模块:从HTML下载器下载的网页内容解析出新的URL交给URL管理器,解析出有效数据给到数据 阅读全文
posted @ 2018-06-12 19:39 公众号python学习开发 阅读(298) 评论(0) 推荐(0)
摘要:2021-08-10更新: 最新方案使用charles+postern vpn的形式抓包 在手机上设置代理时,使用VPN来将流量导出到抓包软件上,而不是通过给WIFI设置HTTP代理的方式。使用VPN可以同时抓到Http(s)和Socket的包,且不管其来自Java层还是so层。推荐代理软件Post 阅读全文
posted @ 2018-06-12 19:13 公众号python学习开发 阅读(8348) 评论(0) 推荐(0)
摘要:我们想将一个只读属性定义为property属性方法,只有在访问它时才参与计算。同时,一旦访问了该属性,希望把计算出来的值缓存起来,不要每次访问它时都要重新计算。这样就能很大程度上提升程序的性能。定义一个惰性属性最简单的方法就是利用描述符来完成。 #define a lazyproperty clas 阅读全文
posted @ 2018-06-11 22:54 公众号python学习开发 阅读(347) 评论(0) 推荐(0)
摘要:原文出处: geekvi super() 的入门使用 在类的继承中,如果重定义某个方法,该方法会覆盖父类的同名方法,但有时,我们希望能同时实现父类的功能,这时,我们就需要调用父类的方法了,可通过使用 super 来实现,比如: 1 2 3 4 5 6 7 8 9 10 class Animal(ob 阅读全文
posted @ 2018-06-11 22:24 公众号python学习开发 阅读(195) 评论(0) 推荐(0)
摘要:摘要: 本文首先以一个经典的分布式缓存的应用场景为铺垫,在了解了这个应用场景之后,生动而又不失风趣地介绍了一致性哈希算法,同时也明确给出了一致性哈希算法的优点、存在的问题及其解决办法。 声明与致谢: 本文转载于朱双印博主的个人日志《白话解析:一致性哈希算法 consistent hashing》一文 阅读全文
posted @ 2018-06-11 16:36 公众号python学习开发 阅读(373) 评论(0) 推荐(0)
摘要:一、需要解决的问题 在部分android机型上每次运行最新版的appium-desktop都需要安装AppiumSetting以及Unlock,并且安装过程需要用户手动来确认,即使测试机上已经安装了这两个组件,运行appium也会要求安装,对于测试以及脚本的调试来说非常不便。 二、解决过程 进入ap 阅读全文
posted @ 2018-06-10 16:24 公众号python学习开发 阅读(244) 评论(0) 推荐(0)
摘要:1.安装Android SDK并配好环境 ANDROID_HOME :C:\Users\18810\AppData\Local\Android\Sdk path:%ANDROID_HOME%\platform-tools 2.安装Java Sdk并配好环境 关于环境变量的配置参考百度百科:https 阅读全文
posted @ 2018-06-10 14:27 公众号python学习开发 阅读(8938) 评论(3) 推荐(3)
摘要:安装Android SDK并配好环境 关于环境变量的配置参考百度百科:https://jingyan.baidu.com/article/15622f2434bc5cfdfcbea51c.html 安装Java Sdk并配好环境 关于环境变量的配置参考百度百科:https://jingyan.bai 阅读全文
posted @ 2018-06-10 14:27 公众号python学习开发 阅读(231) 评论(0) 推荐(0)
摘要:这套教程年久失修,问题的人也比较多,于是,我重新整理了一套appium入门教程。 appium新手入门(1)—— appium介绍 appium新手入门(2)—— 安装 Android SDK appium新手入门(3)—— 安装 appium Server appium新手入门(4)—— java 阅读全文
posted @ 2018-06-08 16:35 公众号python学习开发 阅读(378) 评论(0) 推荐(0)
摘要:windows下安装AnyProxy抓取移动App Http请求 https://blog.csdn.net/a15020059230/article/details/76020142 爬虫|利用Anyproxy爬取微信公众号文章及临时链接转永久链接 https://cloud.tencent.co 阅读全文
posted @ 2018-06-08 14:46 公众号python学习开发 阅读(394) 评论(0) 推荐(0)
摘要:1.通知url 阅读全文
posted @ 2018-06-07 23:56 公众号python学习开发 阅读(164) 评论(0) 推荐(0)
摘要:关于 Python Requests ,在使用中,总结了一些小技巧把,分享下。 1:保持请求之间的Cookies,我们可以这样做。 import requests self.session = requests.Session() self.session.get(login_url) # 可以保持 阅读全文
posted @ 2018-06-07 14:04 公众号python学习开发 阅读(1693) 评论(0) 推荐(0)
摘要:wb_id就是微博内容所在的id,html标签属性为mid #图片区域,多图self.multi_media_xpath="//div[@mid='{}' and not(@minfo)]//div[@class='WB_detail']//div[@class='media_box']/ul/li 阅读全文
posted @ 2018-06-06 17:13 公众号python学习开发 阅读(558) 评论(0) 推荐(0)
摘要:1.接口地址 https://www.instagram.com/p/shortcode/?__a=1 如何获取shortcode 比如说文章地址是https://www.instagram.com/p/BhxqnqtH9Ws/?taken-by=lanlan521425 那么其shortcode就 阅读全文
posted @ 2018-06-06 17:02 公众号python学习开发 阅读(899) 评论(0) 推荐(0)
摘要:package main import( "fmt" "io/ioutil" "net/http" ) func gethtml(url string) (r *http.Response, e error){ resp,err := http.Get(url) if err != nil { fmt.Print("error") ... 阅读全文
posted @ 2018-06-05 20:35 公众号python学习开发 阅读(503) 评论(0) 推荐(0)
摘要:初级 开大括号不能放在单独的一行 未使用的变量 未使用的Imports 简式的变量声明仅可以在函数内部使用 使用简式声明重复声明变量 偶然的变量隐藏Accidental Variable Shadowing 不使用显式类型,无法使用“nil”来初始化变量 使用“nil” Slices and Map 阅读全文
posted @ 2018-06-05 19:12 公众号python学习开发 阅读(448) 评论(0) 推荐(0)
摘要:打开shell然后输入查看哪个程序占用了apt-get进程 然后给kill掉。使用下面命令查看 ps -aux ,列出所有的进程,但是内容太多了而我们只需要找到apt-get进程就可以 所以我们使用管道符号 grep加上需要查找的关键字即可。 然后根据进程所在id杀死进程,像我的id就是3445 阅读全文
posted @ 2018-06-05 18:01 公众号python学习开发 阅读(272) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-06-05 09:33 公众号python学习开发 阅读(202) 评论(0) 推荐(0)
摘要:Referer是浏览器在页面跳转时带入的HTTP头,指示用户上一个页面的URL, 一般来说,网站90%以上的流量应该带有Referer头, 在一些常见的反爬策略中, 大量的不带Referer头的源IP请求会触发"要求输入验证码"策略。 User-Agent 是一个古老的HTTP头,指示用户浏览器的版 阅读全文
posted @ 2018-06-04 16:26 公众号python学习开发 阅读(355) 评论(0) 推荐(0)
摘要:import requests import re import os from fontTools.ttLib import TTFont class MaoYan(object): def __init__(self): self.url = 'http://maoyan.com/films/1 阅读全文
posted @ 2018-06-04 15:39 公众号python学习开发 阅读(900) 评论(0) 推荐(0)
摘要:web_font的一些基本原理 https://blog.csdn.net/fdipzone/article/details/68166388 实例1 猫眼电影 http://www.cnblogs.com/my8100/p/js_maoyandianying.html 实战反爬虫解析-字体替换(天 阅读全文
posted @ 2018-06-04 15:32 公众号python学习开发 阅读(519) 评论(0) 推荐(0)
摘要:替换函数后面的表达式,一般是去掉eval之后的 点我解密 阅读全文
posted @ 2018-06-04 15:20 公众号python学习开发 阅读(3122) 评论(0) 推荐(0)
摘要:前言: “去重”是日常工作中会经常用到的一项技能,在爬虫领域更是常用,并且规模一般都比较大。去重需要考虑两个点:去重的数据量、去重速度。为了保持较快的去重速度,一般选择在内存中进行去重。 数据量不大时,可以直接放在内存里面进行去重,例如python可以使用set()进行去重。 当去重数据需要持久化时 阅读全文
posted @ 2018-06-04 11:38 公众号python学习开发 阅读(400) 评论(0) 推荐(0)