摘要:
为什么需要虚拟环境 在python开发中,我们可能会遇到一种情况:就是当前的项目依赖的是某一个版本,但是另一个项目依赖的是另一个版本,这样就会造成依赖冲突。在这种情况之下,我们就需要一个工具能够将这两种或几种不同版本的环境隔离开来,需要哪个版本就切换到哪个版本做为默认版本,让每个版本应用都各自拥有一 阅读全文
摘要:
聚类与分类的区别 分类 类别是已知的,通过对已知分类的数据进行训练和学习,找到这些不同类的特征,再对未分类的数据进行分类。属于监督学习。 聚类 事先不知道数据会分为几类,通过聚类分析将数据聚合成几个群体。聚类不需要对数据进行训练和学习。属于无监督学习。 关于监督学习和无监督学习,这里给一个简单的介绍 阅读全文
摘要:
简介 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。DataX采用了框架 + 插件 的模式,目前已开源,代码托管在github。 Dat 阅读全文
摘要:
参考自https://blogs.msdn.microsoft.com/pliu/2016/06/18/run-hue-spark-notebook-on-cloudera/ 说明 使用Cloudera Manager部署CDH群集时,可以使用Hue Web UI运行Hive和Impala查询。但S 阅读全文
摘要:
Hue没有配置RDBMS 问题描述 CHD集群添加完Hue组件之后。使用hive进行查询正常,但是使用DB Query查询报错, 报错内容如下: 解决方法 1. 在CHD集群中点击Hue组件,选择配置,在搜索框中搜索hue_safety_valve.ini或是在“类别”--“高级”中查找,在安全阀中 阅读全文
摘要:
一、安装过程 1.1 登录 1.2 接受许可协议 1.3 选择免费版本 1.4 选择下一步 1.5 选择当前管理的主机 1.6 选择使用Parcel安装,选择CDH版本,点击继续 1.7 等待安装 此处安装需要等待一段时间,请耐心等待,安装过程可能需要30分钟时间,这和物理机器的磁盘读写速度和机器性 阅读全文
摘要:
一、角色分配 Cloudera Manager Agent:向server端报告当前机器服务状态。 Cloudera Manager Server:接受agent角色报告服务状态,以视图界面展现,方便管理员查看。 二、准备CDH安装包 本文档采用离线安装方式,所需安装包上传到/root/soft/c 阅读全文
摘要:
一、方案选择 通过Lvs+keepalived+mysql(主主同步)实现数据库层面的高可用方案,需要两台服务器作为数据库提供业务数据的存储,应用服务器通过vip访问数据库,允许同一时间内一台数据库服务器宕机。 可以参考https://www.cnblogs.com/wajika/p/6347430 阅读全文
摘要:
一、卸载CentOS自带的MySQL 1.1 查看之前是否安装过mysql 1.2 卸载自带的mysql 1.3 删除老版本 mysql 的开发头文件和库 注意:卸载后/var/lib/mysql 中的数据及/etc/my.cnf 不会删除,确定没用后就手工删除 二、安装MySQL 2.1 上传my 阅读全文
摘要:
一、查看文件系统 由于我的HDFS存储目录实在根目录”/”下,因此实际这个节点上的存储空间只有50G,但是可以看出/dev/mapper/vg_master-lv_home下的空间有231G,大量空间没有被使用,因此我的目标是从中你抽取出223G的空间给根目录 二、卸载目录 三、重新分配存储容量 四 阅读全文