摘要:
一.环境准备 1.python开发环境, python3.7 2.setuptools基础工具包 3.pip安装包管理工具 4.selenium自动化测试工具 chrom驱动下载地址: http://npm.taobao.org/mirrors/chromedriver/ 5.pytest自动化测试 阅读全文
摘要:
转载自: https://www.cnblogs.com/hihtml5/p/8217062.html 以下操作使用的VirtualBox版本号是5.2.0 一、创建虚拟机 1.下载好操作系统镜像文件后,打开VirtualBox,点击新建虚拟机(首次新建虚拟机推荐使用向导模式,熟练操作步骤后建议使用 阅读全文
摘要:
一.Python 是一种高层次的结合了解释性、编译性、交互性和面向对象的高级程序设计语言。 二.python文件类型 1.源代码:文件名以 .py为扩展名, 文件第一行 #! /usr/bin/python 2.字节代码: python源文件编译后文件, 以 .pyc为扩展名, 编译方法: impo 阅读全文
摘要:
下载地址:https://git-scm.com/downloads 首先如下图:(点击next) 第二步:文件位置存储,可根据自己盘的情况安装 第三步:安装配置文件,自己需要的都选上,下一步 第四步:不创建启动文件夹,下一步: 第五步:选择默认的编辑器,我们直接用推荐的就行,下一步 第六步:勾上第 阅读全文
摘要:
一.数据处理架构 如图,数据流转主要有两条线,实时计算流程和离线计算流程 实时计算:事件(hive表) (使用dw-event-to-collector.sh发送事件) >收数工具collector >flume分发 >kafka缓存 >flink计算 >hbase >elasticsearch 离 阅读全文
摘要:
1.dmp-data mabagement platform数据管理平台 数据赋能,营销智变 2.定义 把分散的第一,第三方异构、多源数据进行整合,然后纳入统一技术平台中,并对这些数据进行标准化和细分处理,用户可以把细分结果推向现有的各类应用环境中。 3.功能 数据清洗 数据管理 数据挖掘 4.用途 阅读全文
摘要:
1.什么的cache 是一种更快的记忆存储数据集 存储空间有限 储存一部分重要数据 是一种相对的概念,只要比原本数据存储更快的介质就能作为cache 2.caching 策略 有限的存储空间,只能存储部分常用数据 FIFO LRU LFU Time_based expriation 没隔一段时间数据 阅读全文
摘要:
1.spark 开源的分布式cluster(集群)运算框架 2.spark相对于Hadoop的优势 数据处理逻辑的代码非常简短 提供很多转换和动作,而hadoop只提供Map和Reduce,表达力欠缺 一个job可以包含多个转换操作,在调度时可以生成多个stage,多个map操作的RDD分区不变,可 阅读全文
摘要:
1.大数据存储中,数据基础结构各层中常遇到的问题: 消化层ingestion layer(kafka): 高吞吐量,简单的处理逻辑,不能长期存储数据 存储层storage layer:高可靠性,高防灾性,能处理大量数据,处理多种格式数据 2.存储层的OLTP和OLAP: OLTP:online tr 阅读全文
摘要:
1.hadoop是一个大数据运算框架,使用降维计算,例如乘法转化为加法,然后使用分布式并行运算 2.HDFS正是Hadoop中用来存储大数据的,是主从模式 3.数据分隔存储再block,namenode记录数据目录,存储在哪个datanode中,datanode存储真实数据,为避免数据丢失同一份数据 阅读全文