摘要:
规范性:数据内容、命名、格式、取值等规范统一。如时间信息都以yyyy-mm-dd格式存储,或者“性别”属性中,应使用“M”、“F”表示,还是用“1”,“0”表示,还是用“男”、“女”表示。完整性:数据完整、没有缺失(包括看得见的缺失和看不见的缺失)。如人员信息完整涵盖性别、年龄等,或者身份证号码不能 阅读全文
摘要:
Apache Spark是专门为大数据处理而设计的通用的计算引擎。spark拥有MapReduce所具有的优点,但不同于Map Reduce的是Job中间输出结果可以缓存到内存中,从而不再需要读写HDFS,减少磁盘数据交互,因此Spark能更好的适应机器学习和数据挖掘等需要迭代的算法。 Spark提 阅读全文
摘要:
下面我们以列表为例来介绍下Python的切片操作 一.切片 一个完整的切片表达式包含两个:,用于分割列表参数,写法如下: list[start_index:end_index:step]1start_index:起始位置end_index:结束位置step:步进,为正数的时候表示从前向后,负数表示从 阅读全文
摘要:
一。Flink和Spark一样,是一个大数据处理引擎。主要区别在于Flink做的是流处理,Spark做的是批处理。 二。Flink处理的是无界的和有界的数据流,做有状态的计算。Flink 设计旨在所有常见的集群环境中运行,以任意规模和内存级速度执行计算。 三。Flink 具有以下几个特点: 支持流处 阅读全文
摘要:
实现原来:请求接口数据,数据解析,数据进行处理,使用echarts进行趋势图绘制,截图邮件,数据阈值范围判断,对接软件告警,Jenkins持续集成; 一.数据处理: 二.结构 三.基础方法: 阅读全文
摘要:
在接口测试中,大多数项目的接口是需要登录后进行操作的,经常用到requests库进行模拟登录及登录后的操作,下面是我不断踩坑后总结出来的关于登录凭证cookies的3种操作方法。 一. 用 requests.utils.dict_from_cookiejar() 把返回的cookies转换成字典 1 阅读全文
摘要:
ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。 ETL的 阅读全文
摘要:
json响应结果 Postman是做接口测试的,但是很多接口并不是直接就能测试的,需要一些预处理。比如登录的时候,需要传递一个token。如果是网页测试,一般打开登录页面的时候就会自动生成一个token,如果返回的是json格式,用Postman从中提取值很简单的,在Test中输入: { "acce 阅读全文
摘要:
ls 查看目录中的文件 cd /home 进入 ‘/ home’ 目录;cd .. 返回上一级目录;cd ../.. 返回上两级目录 ps -ef|grep xxx 显示进程pid kill 使用kill命令来终结进程。先使用ps命令找到进程id,使用kill -9命令,终止进程 tar –xvf 阅读全文
摘要:
Selenium显示等待和隐式等待的区别1、selenium的显示等待原理:显示等待,就是明确要等到某个元素的出现或者是某个元素的可点击等条件,等不到,就一直等,除非在规定的时间之内都没找到,就会跳出异常Exception (简而言之,就是直到元素出现才去操作,如果超时则报异常) 2、seleniu 阅读全文