随笔分类 -  Hadoop/Spark/Hive

摘要:集群背景情况: 集群使用了kerberos和openldap。 第一步: 登录到集群hue所在的master节点。将当前用户切换成hue进程的执行用户。比如默认是hadoop。 su - hadoop 第二步: 向hue注册impala这个应用,执行: /usr/local/service/hue/ 阅读全文
posted @ 2021-10-19 11:44 爱知菜 阅读(58) 评论(0) 推荐(0) 编辑
摘要:腾讯云EMR开启后,默认配置HUE的权限系统是独立的,并没有和Openldap联通,无法使用Ranger管理HUE的权限。 以下记录HUE开启Openldap过程: 1. 我使用的是腾讯云EMR2.6这个版本, 在界面中配置是不生效的,要remote到Hue的所在的服务器,找到配置文件手工配置,用如 阅读全文
posted @ 2021-09-29 12:05 爱知菜 阅读(39) 评论(0) 推荐(0) 编辑
摘要:pip install apache-airflow 注意点: 0. airflow 对python lib的版本要求很奇怪,会要求一些老版本的lib,导致和其他软件冲突,建议使用 “python -m venv airflow-venv”为它创建单独的环境。 1. airflow 默认用sqlit 阅读全文
posted @ 2021-05-08 17:35 爱知菜 阅读(30) 评论(0) 推荐(0) 编辑
摘要:conn = connect(host='172.16.26.16', port=31050, user='xxxx', password='xxxx', auth_mechanism='LDAP', timeout=timeout) cur = conn.cursor() cur.arraysiz 阅读全文
posted @ 2021-03-01 19:38 爱知菜 阅读(24) 评论(0) 推荐(0) 编辑
摘要:查询repository的http地址: 找一台master节点运行如下命令。 cat /etc/yum.repos.d/cloudera* 清理一台VM上安装过CDH组件: 1. 从CM中把VM移除 2. 到VM上运行如下命令清理parcels和rpm: systemctl stop cloude 阅读全文
posted @ 2020-08-04 15:41 爱知菜 阅读(22) 评论(0) 推荐(0) 编辑
摘要:概念 宽依赖:是指子RDD的分区依赖于父RDD的多个分区或所有分区,也就是说存在一个父RDD的一个分区对应一个子RDD的多个分区。 窄依赖:是指父RDD的每一个分区最多被一个子RDD的分区所用,表现为一个父RDD的分区对应于一个子RDD的分区或多个父RDD的分区对应于一个子RDD的分区,也就是说一个 阅读全文
posted @ 2020-01-02 18:11 爱知菜 阅读(6) 评论(0) 推荐(0) 编辑
摘要:坑: Spark Xgboost 对 spark的dataframe 的空值非常敏感,如果dataframe里有空值(null , “NaN”),xgboost就会报错。 Spark2.4.4 的 Vector Assemble转换dataframe以后,对于0很多的行,会默认转成sparse ve 阅读全文
posted @ 2019-12-30 18:01 爱知菜 阅读(42) 评论(0) 推荐(0) 编辑
摘要:参考xgboost官网文章: https://xgboost.readthedocs.io/en/latest/jvm/xgboost4j_spark_tutorial.html Parallel/Distributed Training The massive size of training d 阅读全文
posted @ 2019-12-26 14:43 爱知菜 阅读(83) 评论(0) 推荐(0) 编辑
摘要:最近发现spark的一个坑(发现时spark最新为2.4.4版本),spark对parquet格式有特殊要求,不支持带“uint8”类型的parquet https://github.com/apache/arrow/issues/1470 如何使用pyarrow把一个parquet转换一下呢? i 阅读全文
posted @ 2019-12-06 18:43 爱知菜 阅读(57) 评论(0) 推荐(0) 编辑
摘要:以下示例代码使用 spark 查询 hive并把结果存储为 libsvm 格式: from pyspark import SparkConf,SparkContext from pyspark.sql import HiveContext hc = HiveContext(sc) df = hc.s 阅读全文
posted @ 2019-11-07 14:46 爱知菜 阅读(42) 评论(0) 推荐(0) 编辑
摘要:使用impala-shell 导出csv数据的命令行: impala-shell -i impalad.server -k --output_delimiter="," -B -f query.file -o output.csv 中文乱码问题: UnicodeEncodeError: 'ascii 阅读全文
posted @ 2019-10-23 11:06 爱知菜 阅读(63) 评论(0) 推荐(0) 编辑
摘要:个人心得(CDH5.14,心得是对下文转载步骤的补充): CDH5.14的config.mk config.mk的配置要改成如下: USE_HDFS = 1 HDFS_LIB_PATH = /home/user/xgboost/xgboost-package/libhdfs/lib HADOOP_H 阅读全文
posted @ 2019-09-05 22:54 爱知菜 阅读(17) 评论(0) 推荐(0) 编辑
摘要:之前在impala集成kerberos时,遇到了时间相关的问题,当时没有做充分的测试,对某些理解有些问题(http://caiguangguang.blog.51cto.com/1652935/1381323),今天正好做了下测试,总结如下: 1.klist中expires以及renew until 阅读全文
posted @ 2019-09-03 18:00 爱知菜 阅读(82) 评论(0) 推荐(0) 编辑
摘要:坑点: CDH的spark home其实在 /opt/cloudera/parcels/SPARK2-2.1.0.cloudera2-1.cdh5.7.0.p0.171658/lib/spark2/bin 一定要找那个有spark-class.sh文件的目录。spark-submit.sh其实调用的 阅读全文
posted @ 2019-08-28 19:24 爱知菜 阅读(19) 评论(0) 推荐(0) 编辑
摘要:安装完MIT Kerberos的客户端后,krb5的目录是一个隐藏的目录,这点很恶心 Setting Up the Kerberos Configuration File Settings for Kerberos are specified through a configuration file 阅读全文
posted @ 2019-08-19 11:30 爱知菜 阅读(45) 评论(0) 推荐(0) 编辑
摘要:In [3]: import pyspark from pyspark import SparkContext, SparkConf from pyspark.sql import SparkSession sparkconf = SparkConf().setAppName("myspark") 阅读全文
posted @ 2019-05-29 18:42 爱知菜 阅读(13) 评论(0) 推荐(0) 编辑
摘要:目前Pyhive和impyla不兼容,同一个python不能同时用这两个library 建议连impyla 连Impala connect函数的源代码: https://github.com/cloudera/impyla/blob/master/impala/dbapi.py 示例: from i 阅读全文
posted @ 2019-02-21 18:20 爱知菜 阅读(184) 评论(0) 推荐(0) 编辑
摘要:impala是MPP型数据库, 支持HIVE 和 S3 作为底层存储. impala 刷新元数据 impala 能从Hive的metastore里获取表结构的元数据, 但是并不能感知 hive 的改动, 所以如果hive的表结构发生了改动需要手动来刷新 impala 缓存的元数据. 刷新方式有两种: 阅读全文
posted @ 2019-02-02 17:40 爱知菜 阅读(143) 评论(0) 推荐(0) 编辑
摘要:Creating Permanent Functions Copy the JAR file to HDFS and make sure the hive user can access this JAR file.Copy the JAR file to the host on which Hiv 阅读全文
posted @ 2019-01-25 11:10 爱知菜 阅读(23) 评论(0) 推荐(0) 编辑
摘要:Cloudera Manager 简称 CM, 是企业级的大数据集群安装/升级/管理平台, 帮助用户通过网页上的简单操作控制整个集群. 其功能如下: 1. 提供一个software repository, 方便在各个节点上安装大数据的组件 2. 批量配置 3. 集群监控 4. 集群升级/回滚/备份 阅读全文
posted @ 2019-01-15 14:14 爱知菜 阅读(79) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示