dmp中技术点的定义
ETL(数据仓库技术)
ETL,数据仓库技术,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据, ETL是BI(商业智能)项目重要的一个环节。
BI(商业智能)
伴生对象
若class和object同名,则object是class类的伴生对象,object对象可以访问class类中的私有属性。
DAG(有向无环图)
在Spark里每一个操作生成一个RDD,RDD之间连一条边,最后这些RDD和他们之间的边组成一个有向无环图,这个就是DAG。
hdfs:分布式文件系统
master:9000
hdfs dfs -mkdir -p /csair/data/rule-black-list/
[hadoop@master ~]$ hdfs dfs -mkdir -p /csair/data/rule-computed/ 递归创建文件
[hadoop@master ~]$ hdfs dfs -put a.txt /dmpfiles/
hdfs dfs -ls / 查看hdfs中的文件目录
[hadoop@master conf]$ hdfs dfs -chown -R hadoop /
[hadoop@master ~]$ hdfs dfs -chmod -R 777 /
SparkSession
SparkSessionZipsExample可以从JSON文件中读取邮政编码,通过DataFrame API进行分析,同时还能够使用Spark SQL语句实施查询。
Schema
DataFrame中提供了详细的数据结构信息,从而使得SparkSQL可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么,
DataFrame中的数据结构信息,即为schema。
transform和action
transform是RDD的转换算子,可以将获取的数据转换成RDD,或者RDD转换成新的RDD
action是RDD的行动算子,得到的是一个值或者结果,将RDD cache到内存中。
redis
是一个开源、高效的Key-value非关系型数据库
单机版:启动服务 ./redis-server redis.conf
启动服务器:./start-all.sh
创建集群服务器./redis-trib.rb create --replicas 1 192.168.139.200:7001 192.168.139.200:7002 192.168.139.200:7003 192.168.139.200:7004 192.168.139.200:7005 192.168.139.200:7006
启动客户端:../bin/redis-cli -h 192.168.139.200 -p 7001 -c
在集群中:cluster nodes查看所有节点的情况, set key,get key ,例如:set s1 111 ,get s1