08 2019 档案

摘要:思路: 1、打开书本“更多”短评,复制链接 2、脚本分析链接,通过获取短评数,计算出页码数 3、通过页码数,循环爬取当页短评 4、短评写入到txt文本 5、读取txt文本,处理文本,输出出现频率最高的词组(前X) 通过分析得到其他结果可自由发散 用到的库: lxml 、re、jieba、time 整 阅读全文
posted @ 2019-08-31 20:32 小贝书屋 阅读(1639) 评论(0) 推荐(0) 编辑
摘要:本实例主要用到python的jieba库 首先当然是安装pip install jieba 这里比较关键的是如下几个步骤: 加载文本,分析文本 txt=open("C:\\Users\\Beckham\\Desktop\\python\\倚天屠龙记.txt","r", encoding='utf-8 阅读全文
posted @ 2019-08-27 22:25 小贝书屋 阅读(3006) 评论(0) 推荐(1) 编辑
摘要:python语言最常见的括号有三种,分别是:小括号( )、中括号[ ]和大括号也叫做花括号{ },分别用来代表不同的python基本内置数据类型。 1、python中的小括号( ):代表tuple元组数据类型,元组是一种不可变序列。 2、python中的中括号[ ],代表list列表数据类型: 3、 阅读全文
posted @ 2019-08-26 22:50 小贝书屋 阅读(43495) 评论(0) 推荐(0) 编辑
摘要:本实例的实现逻辑是,应用selenium UI自动化登录百度盘,读取存储百度分享地址和提取码的txt文档,打开百度盘分享地址,填入提取码,然后保存到指定的目录中 全部代码如下: # -*-coding:utf8-*- # encoding:utf-8 import time from seleniu 阅读全文
posted @ 2019-08-25 21:32 小贝书屋 阅读(1585) 评论(0) 推荐(1) 编辑
摘要:以上代码执行后打印出来的结果是 预期目标是打印出a,b中的所有数据,需要创建一个空数组,把循环的结果传入数组,然后再用一个函数for数组内的内容打印 执行结果如下图 阅读全文
posted @ 2019-08-24 16:44 小贝书屋 阅读(2808) 评论(0) 推荐(0) 编辑
摘要:json简单说就是javascript中的对象和数组,所以这两种结构就是对象和数组两种结构,通过这两种结构可以表示各种复杂的结构 1、对象:对象在js中表示为“{}”括起来的内容,数据结构为 {key:value,key:value,...}的键值对的结构,在面向对象的语言中,key为对象的属性,v 阅读全文
posted @ 2019-08-23 14:23 小贝书屋 阅读(5044) 评论(0) 推荐(1) 编辑
摘要:首先安装xlrd库 pip install xlrd 方法1: 表格内容如下: 场景描述,读取该表格A列数据,然后打印出数据 代码何解析如下: import xlrd #引入xlrd库 def excel(): wb = xlrd.open_workbook('F:\\script\\1024.xl 阅读全文
posted @ 2019-08-23 09:14 小贝书屋 阅读(3247) 评论(0) 推荐(0) 编辑
摘要:参考https://blog.csdn.net/ywyxb/article/details/64126927 注意:无论是在线还是离线安装,最好在管理员权限下执行命令 1、安装Python36(32位),配置环境变量C:\Python36;C:\Python36\Scripts;C:\Python3 阅读全文
posted @ 2019-08-23 09:01 小贝书屋 阅读(8239) 评论(0) 推荐(0) 编辑
摘要:工具提供直接打开APP的函数 #输入微信包名,打开微信 start_app("com.tencent.mm") 阅读全文
posted @ 2019-08-20 10:27 小贝书屋 阅读(3446) 评论(0) 推荐(0) 编辑
摘要:1、循环执行某一系列操作。将该操作定义为一个def,然后使用for去循环执行该操作 思路,先把操作定义为一个函数,在for循环执行这个函数 比如下面案例,把微信好友列表内的好友,循环的方式依次调整到第一位置 代码如下: def A(): #把第二个好友移动到第一位置 swipe((300, 450) 阅读全文
posted @ 2019-08-20 10:20 小贝书屋 阅读(3014) 评论(0) 推荐(0) 编辑
摘要:本案例主要用到airtest 的exists指令 从指令解释可以知道,当判断某图片不存在的时候,会返回false值 脚本思路即为如果返回值==false则执行A,!=fales则执行B 下图脚本思路,图“该用户不存在”,当前界面并未显示该图,定义指令返回对象为“a”,那么a的值应该是false 然后 阅读全文
posted @ 2019-08-20 10:16 小贝书屋 阅读(611) 评论(0) 推荐(0) 编辑
摘要:如下图所示,print第一行首位出现乱码的问题 网上的解答是因为UTF-8的BOM前缀(\xef\xbb\xbf) 解决这个问题的方法很多,最快捷的方法是txt文本另存为的时候更改编码格式 将txt另存为,而后编码选择上图后,print打印出来的结果就没有乱码了(或者可以尝试其他编码,读取excel 阅读全文
posted @ 2019-08-18 18:47 小贝书屋 阅读(2572) 评论(0) 推荐(0) 编辑
摘要:案例一: 讲数组a 循环写入名称为2.txt的文档中 脚本执行结果 脚本 一行'a',代表追加模式'a',可以实现多次写入。即每次执行都会在上一行的基础上,换行写入。还有一个模式,在'w'写入模式下,当我们下次写入变量时,会覆盖原本txt文件的内容 如果要按行写入,我们只需要再字符串开头或结尾添加换 阅读全文
posted @ 2019-08-18 14:16 小贝书屋 阅读(30724) 评论(0) 推荐(1) 编辑
摘要:实现目标,air如果想引用第三方python库,则需要在本地python欢迎执行运行 1、打开设置,红色箭头处,选择本地python路径 2、安装air的两个核心库airtest和pocoui 安装方法,Cmd运行 pip install xxx 阅读全文
posted @ 2019-08-16 16:49 小贝书屋 阅读(4484) 评论(0) 推荐(0) 编辑
摘要:如上图,执行脚本后,报找不到指定的模块的错误 解决方法: 1、import cv2提示"Dll load failed:找不到指定的模块" 解决方法:那卸载掉opencv-contrib-python,重新装 pip uninstall opencv-contrib-python, 然后 pip i 阅读全文
posted @ 2019-08-16 16:28 小贝书屋 阅读(523) 评论(0) 推荐(0) 编辑
摘要:执行代码的时候,输出的结果中含有一个“None” 只要将最后一行代码的print() 去掉即可 改成 my_range.get_range() 或者是将 函数中的print(range) 改成 return range 只要将最后一行代码的print() 去掉即可 改成 my_range.get_r 阅读全文
posted @ 2019-08-16 16:25 小贝书屋 阅读(5233) 评论(0) 推荐(0) 编辑
摘要:案例1:直接从json中读取数据 读取json后,数据类型为字典,对字典内数据的提取又有不同的方法,根据不同的字典类型 上图可以看到有”[]”,”{}” python语言最常见的括号有三种,分别是:小括号( )、中括号[ ]和大括号也叫做花括号{ }。其作用也各不相同,分别用来代表不同的python 阅读全文
posted @ 2019-08-16 16:14 小贝书屋 阅读(25917) 评论(0) 推荐(0) 编辑
摘要:比如下图json数据,场景需要读取出wxid这项数据,然后传给后面的函数去使用 具体的脚本为 import json f =open('d:\\1024.json',encoding='utf-8') #打开‘product.json’的json文件 res=f.read() #读文件 print( 阅读全文
posted @ 2019-08-16 16:07 小贝书屋 阅读(6174) 评论(0) 推荐(0) 编辑
摘要:实现场景: 1、读取Excel表数据 2、把数据作为参数传给后面的函数 3、后面的函数循环读取参数执行操作 本案例Excel内容为下图,becks为表名 先贴代码 具体步骤及解析: 1、python读取Excel需要安装xlrd库,cmd下执行pip install xlrd等待安装完成即可 2、I 阅读全文
posted @ 2019-08-16 15:54 小贝书屋 阅读(49252) 评论(0) 推荐(0) 编辑
摘要:1、首先安装好p2和p3,配置好环境变量。在CMD内执行python返回版本号,返回结果根据配置的环境变量而定,如果p2的环境变量配置在前面,则返回p2的版本号,反之则p3 2、然后把各版本目录下的python文件改成python2和python3,分别在CMD下执行python2和python3, 阅读全文
posted @ 2019-08-16 15:29 小贝书屋 阅读(1789) 评论(0) 推荐(0) 编辑
摘要:如上图,请求后报参数错误 原因content-type的值为json requests.post左侧的data要改为json 即r = requests.post(url, json=data, headers=header) 执行成功 content-type的值只要为json,则请求的data即 阅读全文
posted @ 2019-08-16 15:26 小贝书屋 阅读(1864) 评论(0) 推荐(0) 编辑
摘要:返回数据中提取数据的方法 比如下面的案例是,取店铺名称 接口返回数据如下: {"Code":0,"Msg":"ok","Data":{"StoreName":"小贝书屋", "StoreLogo":"xkdnewyun/systemfile/images/100e478a75754c6f9237cd 阅读全文
posted @ 2019-08-16 15:02 小贝书屋 阅读(33264) 评论(0) 推荐(0) 编辑
摘要:场景一: 场景描述:A函数通过一系列的请求与执行,创建并产生订单 B函数获取该订单,然后查询该订单,获取订单信息 本次实例的关键就是,A产生的订单号,传给B,实现函数间传参 代码如下: 如此即实现了id变量化,从前一脚本获取,传给后面的脚本使用 参考地址:http://docs.python-req 阅读全文
posted @ 2019-08-15 11:49 小贝书屋 阅读(424) 评论(0) 推荐(0) 编辑
摘要:如下图,名称为1.txt的文本文件内有链接若干条,预期是循环读取txt文本内链接,而后访问该链接 脚本如下: 这段脚本,逐行从txt文本内读取一条数据,直到全部读取完毕,不会一次性全部加载,对内存占用较少。 阅读全文
posted @ 2019-08-11 20:07 小贝书屋 阅读(3119) 评论(0) 推荐(0) 编辑
摘要:Python continue 语句跳出本次循环 当需要跳过本次循环的时候,使用continue能跳过本次循环,直接下一个循环 如下脚本: alllink是一个url链接数组 从这个数组内循环读取链接 然后判断链接是否与事先定义好的firstlink一致 如果一致,则跳过这次循环,读取下一个链接执行 阅读全文
posted @ 2019-08-11 20:00 小贝书屋 阅读(20490) 评论(0) 推荐(0) 编辑
摘要:实例一: 上图所示 爬虫返回的链接有一部分带有http前缀,有一部分没有,且也不知道具体哪些链接会出现没有前缀的情况 后面如果通过返回链接进行再次访问,那么肯定会出现报错的问题 思路: 判断 返回值内是否包含某内容 比如判断返回值是否含有“www” 如果有,则跳过,没有则加上前缀 构造链接 代码如下 阅读全文
posted @ 2019-08-11 16:59 小贝书屋 阅读(1590) 评论(0) 推荐(0) 编辑
摘要:面讲的方法只适用于返回值长度固定的内容,长度不固定,每次取得值就不会一样 案例1: 比如,我们需要取出“提取码: y3rx ”“:”后面的“y3rx” 目标数据在内容的第5位到第9位,做左侧为第1位,冒号后面有一位空格,也算一位数据。从左到右索引默认0开始的 代码如下: C = “提取码: y3rx 阅读全文
posted @ 2019-08-11 16:52 小贝书屋 阅读(3261) 评论(0) 推荐(0) 编辑
摘要:代码A如下: 打印结果: (5, 3, 4, 5, 6) 代码B如下: 打印结果: 5 3 4 5 6 乍一看两个程序一样 但是结果确实不一样的 一个横着显示 一个竖着显示 。其实最大的区别在于 return kargs后面有个逗号 表示变换行了 阅读全文
posted @ 2019-08-11 16:46 小贝书屋 阅读(362) 评论(0) 推荐(0) 编辑
摘要:案例一: 某套图网站,套图以封面形式展现在页面,需要依次点击套图,点击广告盘链接,最后到达百度网盘展示页面。 这一过程通过爬虫来实现,收集百度网盘地址和提取码,采用xpath爬虫技术 1、首先分析图片列表页,该页按照更新先后顺序暂时套图封面,查看HTML结构。每一组“li”对应一组套图。属性href 阅读全文
posted @ 2019-08-11 16:42 小贝书屋 阅读(8960) 评论(0) 推荐(0) 编辑