dmp中技术点的定义

ETL(数据仓库技术)

  ETL,数据仓库技术,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库

  ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据, ETL是BI(商业智能)项目重要的一个环节。

BI(商业智能)

  BI,工具商业智能(Business Intelligence)分析工具的英文缩写。
BI(BusinessIntelligence)即商业智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策。商业智能的概念最早在1996年提出。当时将商业智能定义为一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。

伴生对象

若class和object同名,则object是class类的伴生对象,object对象可以访问class类中的私有属性。

DAG(有向无环图)

在Spark里每一个操作生成一个RDD,RDD之间连一条边,最后这些RDD和他们之间的边组成一个有向无环图,这个就是DAG。

 

hdfs:分布式文件系统

master:9000

hdfs dfs -mkdir -p /csair/data/rule-black-list/

[hadoop@master ~]$  hdfs dfs -mkdir -p /csair/data/rule-computed/         递归创建文件

[hadoop@master ~]$ hdfs dfs -put a.txt /dmpfiles/

hdfs dfs -ls /      查看hdfs中的文件目录

[hadoop@master conf]$ hdfs dfs -chown -R hadoop /

[hadoop@master ~]$ hdfs dfs -chmod -R 777  /

 

SparkSession

SparkSessionZipsExample可以从JSON文件中读取邮政编码,通过DataFrame API进行分析,同时还能够使用Spark SQL语句实施查询。

Schema

DataFrame中提供了详细的数据结构信息,从而使得SparkSQL可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么,

DataFrame中的数据结构信息,即为schema。

transform和action

transform是RDD的转换算子,可以将获取的数据转换成RDD,或者RDD转换成新的RDD

action是RDD的行动算子,得到的是一个值或者结果,将RDD cache到内存中。

redis

  是一个开源、高效的Key-value非关系型数据库

  单机版:启动服务  ./redis-server redis.conf

  启动服务器:./start-all.sh

 

  创建集群服务器./redis-trib.rb create --replicas 1 192.168.139.200:7001 192.168.139.200:7002 192.168.139.200:7003 192.168.139.200:7004 192.168.139.200:7005  192.168.139.200:7006

  启动客户端:../bin/redis-cli -h 192.168.139.200 -p 7001 -c

  在集群中:cluster nodes查看所有节点的情况,   set key,get key ,例如:set s1 111 ,get s1

posted @ 2020-05-31 15:17  齐方  阅读(292)  评论(0编辑  收藏  举报