望穿秋水
管理&技术&业务 项目管理方面:加强通过工具辅助管理,构建Web项目管理系统来协助项目管理。技术开发方面:加强系统分析能力、架构设计能力,时刻把握新技术动态。业务方面:加强需求分析能力,使最终需求来源于客户又高于客户。
随笔 - 394,  文章 - 14,  评论 - 368,  阅读 - 225万

随笔分类 -  大数据

1 2 3 下一页
数据治理包括哪些方面
摘要:从技术实施角度看,数据治理包含“理”“采”“存”“管”“用”这五个步骤,即业务和数据资源梳理、数据采集清洗、数据库设计和存储、数据管理、数据使用。 数据资源梳理:数据治理的第一个步骤是从业务的视角厘清组织的数据资源环境和数据资源清单,包含组织机构、业务事项、信息系统,以及以数据库、网页、文件和 AP 阅读全文
posted @ 2021-12-13 13:04 望穿秋水 阅读(2173) 评论(0) 推荐(0) 编辑
spark mllib算法思想总结[转]
摘要:Spark MLlib全部算法总结(2.1.0版) 说明:总结算法为Spark2.1.0中Mllib中源码算法,参照网络链接及书籍整理而成。 算法按计算过程分两大类:监督学习(Supervised Learning)和无监督学习(Unsupervised Learning)。 监督学习:指给定算法的 阅读全文
posted @ 2021-02-03 09:39 望穿秋水 阅读(259) 评论(0) 推荐(0) 编辑
MLlib算法简介
摘要:之前Mahout或者自己写的MR来解决复杂的机器学习,导致效率低,Spark特别适合迭代式的计算,这正是机器学习算法训练所需要的,MLlib是基于spark之上算法组件,基于spark平台来实现。 主要的机器学习的算法目前在MLlib中都已经提供了,分类回归、聚类、关联规则、推荐、降维、优化、特征抽 阅读全文
posted @ 2021-02-03 09:27 望穿秋水 阅读(285) 评论(0) 推荐(0) 编辑
使用别的电脑连接另一台电脑当中的虚拟机中的kylin项目
摘要:环境说明: 本机A的ip:192.168.0.242 服务器B的ip:192.168.0.125 服务器上的虚拟机C的ip:192.168.43.129 目前状态: B上面能访问C上的站点kylin站点:http://192.168.43.129:7070/kylin/ A能ping通B的ip, 但 阅读全文
posted @ 2019-06-21 17:19 望穿秋水 阅读(1942) 评论(0) 推荐(0) 编辑
kylin Build过程问题排查:17 Step Name: Build Cube In-Mem
摘要:Kylin Build执行到底17步时报错:17 Step Name: Build Cube In-Mem ,错误截图如下: 点左下角的MRJob图标,打开查看错误信息: 从MRJob中的描述中可见详细的错误信息: The required MAP capability is more than t 阅读全文
posted @ 2019-06-03 11:15 望穿秋水 阅读(950) 评论(0) 推荐(0) 编辑
CDH5.14.4中的Hue集成HBase
摘要:1、进入CDH中的给HBase添加Thrift Server角色实例, 为了方便, 将Thrift Server添加到Hue同一主机 2、HBase Thrift Server中选择主机cm1: 3、添加成功之后 HBase状态摘要中多了一个HBase Thrift Server: 4、HBase配 阅读全文
posted @ 2019-05-31 18:25 望穿秋水 阅读(1485) 评论(0) 推荐(0) 编辑
kylin2.4.1订单案例详细构建流程
摘要:一、Hive订单数据仓库构建: hive表创建可以在命令行中直接完成,也可以在Hue中完成,本文在Hue中的完成,如下图: 下文的样例文本文件下载地址:https://files-cdn.cnblogs.com/files/qqflying/KylinData.zip 1. 创建事实表并插入数据 执 阅读全文
posted @ 2019-05-30 10:45 望穿秋水 阅读(407) 评论(0) 推荐(0) 编辑
kylin安装过程问题排查
摘要:问题:日志报错:/usr/local/apps/kylin/tomcat/conf/.keystore (没有那个文件或目录) 解决:在kylin内置tomcat的server.xml中里边有个对https的支持那一段没启用的话 注释掉 <Connector port="7443" protocol 阅读全文
posted @ 2019-05-24 16:10 望穿秋水 阅读(860) 评论(0) 推荐(0) 编辑
全程实操cdh5.14.4中集成安装kylin2.4.1与使用测试
摘要:在cdh5.14.4安装完成并排错完成的情况下,进行如下kylin安装操作: 1、实验环境 三台CentOS 7主机,IP地址 192.168.43.129 cm1 192.168.43.130 cm2 192.168.43.131 cm3 JDK版本:1.8.0_151CDH版本:5.14.4Ky 阅读全文
posted @ 2019-05-24 15:19 望穿秋水 阅读(2021) 评论(0) 推荐(0) 编辑
centos7 下gcc离线安装
摘要:1、在centos安装镜像文件ios中的Packages文件夹中需找安装文件: 把需要的文件直接复制出来就行。 这里提醒的一点是,如果用命令行进入该文件夹,因为文件路径带空格,所以需要加上双引号: [root@cm1 ~]# cd /run/media/root/CentOS 7 x86_64/Pa 阅读全文
posted @ 2019-05-24 10:28 望穿秋水 阅读(15178) 评论(1) 推荐(0) 编辑
CentOS7+CDH5.14.0安装CDH错误排查:HBase服务出现 该运行状况测试不良,因为 Service Monitor 未找到活动 Master
摘要:错误:HBase服务出现 该运行状况测试不良,因为 Service Monitor 未找到活动 Master 如果重启服务之后无法排除该问题,请执行如下操作(CM换成自己的版本号): rm -f /opt/cloudera-manager/cm-5.10.1/lib/cloudera-scm-age 阅读全文
posted @ 2019-04-29 10:22 望穿秋水 阅读(3122) 评论(0) 推荐(0) 编辑
CentOS7+CDH5.14.0安装CDH错误排查: HiveServer2 该角色的进程已退出。该角色的预期状态为已启动
摘要:错误提示: HiveServer2 该角色的进程已退出。该角色的预期状态为已启动 解决办法:出现此问题应该是内存不足造成的,重启相应的组件即可。比如Hive报错,重启Hive,YARN报错,重启YARN. 还有这个错误:当前运行状况不良。 以下运行状况测试不良: 进程状态. 也是重启组件就好了。 阅读全文
posted @ 2019-04-16 15:49 望穿秋水 阅读(1614) 评论(0) 推荐(0) 编辑
CentOS7+CDH5.14.0安装CDH错误排查:该主机与 Cloudera Manager Server 失去联系的时间过长。 该主机未与 Host Monitor 建立联系
摘要:主机错误: 该主机与 Cloudera Manager Server 失去联系的时间过长。 该主机未与 Host Monitor 建立联系 解决办法: 首先查看该主机NTP服务是否启动:https://www.cnblogs.com/sisimi/p/7698452.html 如果已经启动,请查看客 阅读全文
posted @ 2019-04-16 12:20 望穿秋水 阅读(2545) 评论(0) 推荐(0) 编辑
CentOS7+CDH5.14.0安装CDH错误排查:Hue错误: Load Balancer 该角色的进程启动失败,httpd安装
摘要:Hue错误: Load Balancer 该角色的进程启动失败 解决办法:主机能够联网情况下,直接运行如下命令即可在线安装openssl、httpd 需要提前安装环境 httpd, mod_ssl yum install httpd yum install mod_ssl 安装好之后, 重启就好了 阅读全文
posted @ 2019-04-16 10:54 望穿秋水 阅读(420) 评论(0) 推荐(0) 编辑
CentOS7+CDH5.14.0安装全流程记录,图文详解全程实测-8CDH5安装和集群配置
摘要:Cloudera Manager Server和Agent都启动以后,就可以进行CDH5的安装配置了。 准备文件 从 http://archive.cloudera.com/cdh5/parcels/中下载CDH5.14.0的相关文件 把CDH5需要的安装文件放到主节点上,新建目录为 /opt/cl 阅读全文
posted @ 2019-04-12 18:19 望穿秋水 阅读(3412) 评论(0) 推荐(0) 编辑
CentOS7+CDH5.14.0安装全流程记录,图文详解全程实测-7主节点CM安装子节点Agent配置
摘要:主节点安装cloudera manager 准备工作:下载CM和mysql连接驱动包: CM各版本下载地址:http://archive.cloudera.com/cm5/cm/5/ 从里面选择:http://archive.cloudera.com/cm5/cm/5/cloudera-manage 阅读全文
posted @ 2019-04-12 17:39 望穿秋水 阅读(1262) 评论(0) 推荐(0) 编辑
CentOS7+CDH5.14.0安装全流程记录,图文详解全程实测-6CM安装前环境检查
摘要:检查环境 在正式开始安装CDH之前最好先检查一下能不能相互免密ssh,以及防火墙是否关闭,集群中的时间是否统一,java版本是否是oracle的版本,主节点mysql是否安装正确等。 ssh测试 例如在cm0中ssh cm1exitssh cm2exit例如在cm1中ssh cm0exitssh c 阅读全文
posted @ 2019-04-12 17:18 望穿秋水 阅读(427) 评论(0) 推荐(0) 编辑
CentOS7+CDH5.14.0安装全流程记录,图文详解全程实测-5安装JDK及安装mysql数据库
摘要:1、安装JDK 可以不用卸载自带的openjdk,配好环境变量即可。 下载文件:jdk-8u151-linux-x64.tar.gz 附:JDK各版本下载地址:https://www.oracle.com/technetwork/java/javase/archive-139210.html 在里面 阅读全文
posted @ 2019-04-12 17:13 望穿秋水 阅读(498) 评论(0) 推荐(0) 编辑
CentOS7+CDH5.14.0安装全流程记录,图文详解全程实测-4配置NTP服务
摘要:配置NTP服务。标准的做法是配置NTP服务器,但是这里为了方便就用简化的方式配置了。 这个在安装初期,不是必须的,只要保证各机器的时间同步就行,使用如下命令可以查看时间是否同步: 时间差1-2秒钟就没事。 确保每台机器的ntpd服务都是启动状态,否则后面CDH安装完成后,主机状态会是错误状态。 sy 阅读全文
posted @ 2019-04-12 16:21 望穿秋水 阅读(457) 评论(0) 推荐(0) 编辑
CentOS7+CDH5.14.0安装全流程记录,图文详解全程实测-3禁止交换和禁用大页面
摘要:1、禁止交换(每台机器都要做): 执行命令:vim /etc/sysctl.conf 增加一行:vm.swappiness=0 执行命令:sudo sysctl vm.swappiness=0 2、禁用大页面(每台机器都要做): 执行命令: echo never > /sys/kernel/mm/t 阅读全文
posted @ 2019-04-12 16:16 望穿秋水 阅读(414) 评论(0) 推荐(0) 编辑

1 2 3 下一页

点击右上角即可分享
微信分享提示