11 2020 档案

摘要:一.简介 XML是由万维网联盟(W3C)创建的标记语言,被设计用来传输和存储数据,XML可以自行定义标签,具有自我描述性,其设计宗旨是传输数据,而非显示数据。Python自带XML模块,方便开发者解析XML数据。XML模块中包含了广泛使用的API接口 SAX和DOM等。另外,lxml解析库同样支持H 阅读全文
posted @ 2020-11-29 23:27 阿布_alone 阅读(6222) 评论(0) 推荐(0) 编辑
摘要:一、常见的中文编码 GB2312编码是在ASCII编码基础上扩展来的,在1980年由中国国家标准总局发布,其中最主要的变化就是引入了简体中文的编码,一共容纳了包括简体中文在内的6000多个字符。 仅仅是简体中文肯定是不够用的,1995年,GBK编码在GB2312编码的基础上进行扩充,加入了繁体中文和 阅读全文
posted @ 2020-11-29 22:53 阿布_alone 阅读(1229) 评论(0) 推荐(0) 编辑
摘要:很多人觉得正则很难,在我看来,这些人一定是没有用心。其实正则很简单,根据二八原则,我们只需要懂 20% 的内容就可以解决 80% 的问题了。我曾经有几年几乎每天都跟正则打交道,刚接手项目的时候我对正则也是一无所知,花半小时百度了一下,然后写了几个 demo,就开始正式接手了。三年多时间,我用到的正则 阅读全文
posted @ 2020-11-29 21:33 阿布_alone 阅读(105) 评论(0) 推荐(0) 编辑
摘要:我们平时导入第三方模块的时候,一般使用的是import关键字,例如: import scrapy from scrapy.spider import Spider 但是如果各位同学看过 Scrapy 的settings.py文件,就会发现里面会通过字符串的方式来指定 pipeline 和 middl 阅读全文
posted @ 2020-11-29 17:40 阿布_alone 阅读(551) 评论(0) 推荐(0) 编辑
摘要:我们在使用Redis做消息队列的时候,常常使用列表这个数据结构,并写出如下的代码: import redis import time client = redis.Redis() while True: data = client.lpop('key') if not data: time.slee 阅读全文
posted @ 2020-11-22 22:36 阿布_alone 阅读(472) 评论(0) 推荐(0) 编辑
摘要:我们在使用 MongoDB 的时候,会出现需要给一个已经存在的大集合的某个字段增加索引的情况。 索引分为前台索引和后台索引,对应到 pymongo 中创建索引的代码: import pymongo handler = pymongo.MongoClient().yourdb.yourcol # 前台 阅读全文
posted @ 2020-11-22 22:01 阿布_alone 阅读(575) 评论(0) 推荐(0) 编辑
摘要:subprocess 模块首先推荐使用的是它的 run 方法,更高级的用法可以直接使用 Popen 接口。 run 方法语法格式如下: subprocess.run(args, *, stdin=None, input=None, stdout=None, stderr=None, capture_ 阅读全文
posted @ 2020-11-17 22:46 阿布_alone 阅读(207) 评论(0) 推荐(0) 编辑
摘要:今天偷个懒写篇总结性的文章,我们在写爬虫,对网络抓包或逆向一些token参数时常常遇到一长串的字符,看到一长串不知其意义的字符串往往有点懵圈。如果你靠肉眼能从这一长串字符中看出一些特征或含义,那么会加快你写爬虫解析网络参数的步伐,也能给你提供分析思路。 这篇文章就是总结一下常见的字符串编码的格式和特 阅读全文
posted @ 2020-11-01 23:18 阿布_alone 阅读(836) 评论(0) 推荐(0) 编辑
摘要:当用python3做爬虫的时候,一些网站为了防爬虫会设置一些检查机制,这时我们就需要添加请求头,伪装成浏览器正常访问。 header的内容在浏览器的开发者工具中便可看到,将这些信息添加到我们的爬虫代码中即可。 ‘Accept-Encoding’:是浏览器发给服务器,声明浏览器支持的编码类型。一般有g 阅读全文
posted @ 2020-11-01 23:03 阿布_alone 阅读(957) 评论(0) 推荐(0) 编辑
摘要:摘自:微信公众号:无量测试之道 1、MongoDB 高级操作 数据是随意构建的,大家在练习时可以自己创建,现有的数据为: > db.test.find(){ "_id" : ObjectId("5eecc55ec2e3725b5715931b"), "name" : "tony", "age" : 阅读全文
posted @ 2020-11-01 22:26 阿布_alone 阅读(126) 评论(0) 推荐(0) 编辑
摘要:curl 介绍: curl是基于URL语法在命令行方式下工作的文件传输工具,它支持FTP,FTPS,HTTP,HTTPS,GOPHER,TELNET,DICT,FILE及LDAP等协议。curl支持HTTPS认证,并且支持HTTP的POST,PUT等方法,FTP上传,kerberos认证,HTTP上 阅读全文
posted @ 2020-11-01 22:18 阿布_alone 阅读(154) 评论(0) 推荐(0) 编辑
摘要:简单例子: import schedule import time def run(): print("I'm doing something...") schedule.every(10).minutes.do(run) # 每隔十分钟执行一次任务 schedule.every().hour.do 阅读全文
posted @ 2020-11-01 21:23 阿布_alone 阅读(114) 评论(0) 推荐(0) 编辑

TOP
点击右上角即可分享
微信分享提示