摘要:
scala 内置函数 1,DataFrame API之中的内置函数进行了优化,不再返回一个结果,而是返回一个 Column对象,并且在并行作业之中 2, Column 可以用来在 DataFrame 的操作之中,比如 select filter和 groupBy计算 3, scala 内置函数分为 聚合函数,集合函数(例如,array_contains),日期时间函数,混合函数(例如:求随机... 阅读全文
摘要:
Parquet 支持元数据合并: 1,主要是针对多个 Parquet文件,并且有着可以互相兼容进行合并 2,开启自动合并的两种方式: 1),读取 Parquet文件时将数据源选项 mergeSchema 设置为true 2),使用 SQLContext.setConf() 将 spark.sql.parquet.mergeSchema设置为 true package da... 阅读全文
摘要:
docker 打包应用程序: 1,针对经常更换的环境问题部署的一套系统 2,部署web项目(python程序)是为了项目测试使用首先配置 centso 环境 docker pull centos # 指定 启动 --net=host 可以和宿主机通信 docker run --net=host -ti 9aec5c5fe4ba /bin/bash ... 阅读全文
摘要:
docker 常用命令: 1,首先停止容器运行,然后删除容器,最后删除镜像 # 查看所有的容器( -a 表明包括没有运行) docker ps -a # 停止 容器 containerId docker stop f23d164a204a # 删除所有的 容器 docker rm $(docker ps -a -q) # 查看所有... 阅读全文
摘要:
本次使用 hadoop-2.7.0+spark-2.1.1-bin-hadoop2.7+zeppelin-0.8.1-bin-all使用步骤: 1,配置 zeppelin-env.sh export JAVA_HOME=/home/hadoop/jdk-11.0.2 export SPARK_HOM 阅读全文