爱知菜 - 博客园

2020年2月10日

摘要：开启Zeppelin的账号密码模式要先把zeppelin-site.xml里的匿名访问模式(zeppelin.anonymous.allowed)设成false shiro 本身也是一个apache项目。 shiro.ini 位于 Zeppelin 的 conf 文件夹下。 [users] 配置用户阅读全文

posted @ 2020-02-10 16:55 爱知菜阅读(106) 评论(0) 推荐(0)

2020年2月5日

Kubernetes (K8S) 学习笔记

摘要： Kubernetes 以下简称 k8s，是类似hadoop中yarn的存在，对大规模集群进行创建、删除、升级、扩容的一层组件。微软Azure官方的教程：链接: https://pan.baidu.com/s/1AM6eq80Y72TuVF1yFXS5CQ 提取码: j363 基本元素： 1. po 阅读全文

posted @ 2020-02-05 23:21 爱知菜阅读(45) 评论(0) 推荐(0)

2020年1月2日

spark 运行概念和关键参数

摘要：概念宽依赖：是指子RDD的分区依赖于父RDD的多个分区或所有分区，也就是说存在一个父RDD的一个分区对应一个子RDD的多个分区。窄依赖：是指父RDD的每一个分区最多被一个子RDD的分区所用，表现为一个父RDD的分区对应于一个子RDD的分区或多个父RDD的分区对应于一个子RDD的分区，也就是说一个阅读全文

posted @ 2020-01-02 18:11 爱知菜阅读(19) 评论(0) 推荐(0)

azcopy linux 安装使用说明（blob）

摘要： azcopy 有过一次大的命令行接口更新： 7.x的版本命令形如： azcopy --source .... --destination ... 10.x的版本命令形如：azcopy copy 10.x的版本在“azcopy”后面有子命令，比如copy 现在一般都用10.x的版本了。安装说明：阅读全文

posted @ 2020-01-02 12:15 爱知菜阅读(188) 评论(0) 推荐(0)

2019年12月30日

spark 运行 xgboost 脱坑记

摘要：坑： Spark Xgboost 对 spark的dataframe 的空值非常敏感，如果dataframe里有空值（null ， “NaN”），xgboost就会报错。 Spark2.4.4 的 Vector Assemble转换dataframe以后，对于0很多的行，会默认转成sparse ve 阅读全文

posted @ 2019-12-30 18:01 爱知菜阅读(66) 评论(0) 推荐(0)

2019年12月26日

Spark Xgboost 分布式运行原理

摘要：参考xgboost官网文章： https://xgboost.readthedocs.io/en/latest/jvm/xgboost4j_spark_tutorial.html Parallel/Distributed Training The massive size of training d 阅读全文

posted @ 2019-12-26 14:43 爱知菜阅读(126) 评论(0) 推荐(0)

2019年12月6日

使用 pyarrow 将parquet转成spark能用的parquet

摘要：最近发现spark的一个坑（发现时spark最新为2.4.4版本），spark对parquet格式有特殊要求，不支持带“uint8”类型的parquet https://github.com/apache/arrow/issues/1470 如何使用pyarrow把一个parquet转换一下呢？ i 阅读全文

posted @ 2019-12-06 18:43 爱知菜阅读(79) 评论(0) 推荐(0)

2019年11月7日

spark query hive and save as libsvm

摘要：以下示例代码使用 spark 查询 hive并把结果存储为 libsvm 格式： from pyspark import SparkConf,SparkContext from pyspark.sql import HiveContext hc = HiveContext(sc) df = hc.s 阅读全文

posted @ 2019-11-07 14:46 爱知菜阅读(57) 评论(0) 推荐(0)

2019年10月23日

CDH 下 impala-shell 的使用（输出csv，中文ascii错误）

摘要：使用impala-shell 导出csv数据的命令行： impala-shell -i impalad.server -k --output_delimiter="," -B -f query.file -o output.csv 中文乱码问题： UnicodeEncodeError: 'ascii 阅读全文

posted @ 2019-10-23 11:06 爱知菜阅读(73) 评论(0) 推荐(0)

2019年10月16日

机器学习中计算优化的 Ring AllReduce

摘要：参考这篇文章： https://blog.csdn.net/dpppBR/article/details/80445569 谈一下我的理解，在GPU的机器学习过程中，传统的做法有类似MapReduce的地方，把数据分成若干个小块，每个小块在一个GPU上训练（Map），然后把训练得到的神经网络参数汇总阅读全文

posted @ 2019-10-16 11:12 爱知菜阅读(84) 评论(0) 推荐(0)

爱知菜的技术博客

公告