摘要:
开启Zeppelin的账号密码模式要先把zeppelin-site.xml里的匿名访问模式(zeppelin.anonymous.allowed)设成false shiro 本身也是一个apache项目。 shiro.ini 位于 Zeppelin 的 conf 文件夹下。 [users] 配置用户 阅读全文
摘要:
Kubernetes 以下简称 k8s,是类似hadoop中yarn的存在,对大规模集群进行创建、删除、升级、扩容的一层组件。 微软Azure官方的教程:链接: https://pan.baidu.com/s/1AM6eq80Y72TuVF1yFXS5CQ 提取码: j363 基本元素: 1. po 阅读全文
摘要:
概念 宽依赖:是指子RDD的分区依赖于父RDD的多个分区或所有分区,也就是说存在一个父RDD的一个分区对应一个子RDD的多个分区。 窄依赖:是指父RDD的每一个分区最多被一个子RDD的分区所用,表现为一个父RDD的分区对应于一个子RDD的分区或多个父RDD的分区对应于一个子RDD的分区,也就是说一个 阅读全文
摘要:
azcopy 有过一次大的命令行接口更新: 7.x的版本 命令形如: azcopy --source .... --destination ... 10.x的版本 命令形如:azcopy copy 10.x的版本在“azcopy”后面有子命令,比如copy 现在一般都用10.x的版本了。 安装说明: 阅读全文
摘要:
坑: Spark Xgboost 对 spark的dataframe 的空值非常敏感,如果dataframe里有空值(null , “NaN”),xgboost就会报错。 Spark2.4.4 的 Vector Assemble转换dataframe以后,对于0很多的行,会默认转成sparse ve 阅读全文
摘要:
参考xgboost官网文章: https://xgboost.readthedocs.io/en/latest/jvm/xgboost4j_spark_tutorial.html Parallel/Distributed Training The massive size of training d 阅读全文
摘要:
最近发现spark的一个坑(发现时spark最新为2.4.4版本),spark对parquet格式有特殊要求,不支持带“uint8”类型的parquet https://github.com/apache/arrow/issues/1470 如何使用pyarrow把一个parquet转换一下呢? i 阅读全文
摘要:
以下示例代码使用 spark 查询 hive并把结果存储为 libsvm 格式: from pyspark import SparkConf,SparkContext from pyspark.sql import HiveContext hc = HiveContext(sc) df = hc.s 阅读全文
摘要:
使用impala-shell 导出csv数据的命令行: impala-shell -i impalad.server -k --output_delimiter="," -B -f query.file -o output.csv 中文乱码问题: UnicodeEncodeError: 'ascii 阅读全文
摘要:
参考这篇文章: https://blog.csdn.net/dpppBR/article/details/80445569 谈一下我的理解,在GPU的机器学习过程中,传统的做法有类似MapReduce的地方,把数据分成若干个小块,每个小块在一个GPU上训练(Map),然后把训练得到的神经网络参数汇总 阅读全文