上一页 1 ··· 11 12 13 14 15
摘要: 一,风险分为内部和外部 首先内部: CDH大数据集群部署过程中会自动创建以服务命名的用户,如图所示 用户名(login_name):口令位置(passwd):用户标识号(UID):用户组标识号(GID):注释性描述(users):主目录(home_directory):登陆shell(Shell) 阅读全文
posted @ 2018-10-31 18:02 duaner92 阅读(757) 评论(0) 推荐(0) 编辑
摘要: 一,简介 大数据平台安全体系的四个层次说起:外围安全、数据安全、访问安全以及访问行为监控。 外围安全技术多指传统意义上提到的网络安全技术,如防火墙,登陆认证等; 数据安全从狭义上说包括对用户数据的加解密,又可细分为存储加密和传输加密;还包括用户数据的脱敏,脱敏可以看做“轻量级”的数据加密。如某人的生 阅读全文
posted @ 2018-10-26 14:02 duaner92 阅读(704) 评论(0) 推荐(0) 编辑
摘要: centos 6.5 镜像:http://archive.kernel.org/centos-vault/6.5/isos/x86_64/ docker :https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo 阅读全文
posted @ 2018-10-25 15:56 duaner92 阅读(150) 评论(0) 推荐(0) 编辑
摘要: 问题一: 错误描述: /opt/cm-5.7.0/etc/init.d/cloudera-scm-agent status cloudera-scm-agent dead but pid file exists 查看日志/opt/cm-5.7.0/log/cloudera-scm-agent/clo 阅读全文
posted @ 2018-10-19 12:25 duaner92 阅读(2018) 评论(0) 推荐(1) 编辑
摘要: 我们在部署完CDH 5.7.0和CM 5.7.0后,开始启动CM Agent,但是会出现下面的错误:# cloudera-scm-agent startStarting cloudera-scm-agent: [FAILED] 问题查找# cat /opt/cloudera-manager/cm-5 阅读全文
posted @ 2018-10-12 12:20 duaner92 阅读(1119) 评论(0) 推荐(0) 编辑
摘要: 一、摘要 impala作为实时数据分析引擎,其源数据时效性要求不同,主要分为离线数据分析和实时数据分析。离线数据分析应用场景下,可以利用hive离线加载数据。实时数据分析则依靠kafka(高吞吐量的消息发布订阅系统)。 二、kafka介绍 kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理 阅读全文
posted @ 2018-10-10 14:43 duaner92 阅读(6185) 评论(0) 推荐(0) 编辑
摘要: 一、python循环体 1. python支持for循环,while循环,和嵌套循环; java支持for循环,while循环,do ... while...循环。 2. python中break,continue和java中含义相同,但是特有pass。 pass 不做任何事情,一般用做占位语句。 阅读全文
posted @ 2018-09-23 18:57 duaner92 阅读(3546) 评论(0) 推荐(0) 编辑
摘要: 一、平台基本功能 1. 数据接入 2. 数据存储和查询,存储模型应包括关系型模型,非关系型模型,文档模型等。 3. 数据计算,包括离线批处理,实时计算,机器学习,多维分析和全文检索。 4. 平台安全与管理,解决用户管理,数据隔离,访问授权,访问控制和集群服务安全等问题。 5. 平台辅助工具,如程序开 阅读全文
posted @ 2018-09-17 22:43 duaner92 阅读(342) 评论(0) 推荐(0) 编辑
摘要: 一、方法介绍 假设要进行join的数据分别来自File1和File2. 参考:https://blog.csdn.net/yimingsilence/article/details/70242604 1.1 reduce side join reduce side join是一种最简单的join方式 阅读全文
posted @ 2018-09-06 11:53 duaner92 阅读(1208) 评论(0) 推荐(1) 编辑
摘要: 面试常见问题,必备答案。 参考:https://blog.csdn.net/u010697988/article/details/70173104 mapReducehe和Spark之间的最大区别是前者较偏向于离线处理,而后者重视实效性,下面主要介绍mapReducehe和Spark两者的shuff 阅读全文
posted @ 2018-09-02 17:32 duaner92 阅读(991) 评论(0) 推荐(0) 编辑
上一页 1 ··· 11 12 13 14 15