十七楼的羊

2019年4月29日

摘要： scala 内置函数 1,DataFrame API之中的内置函数进行了优化,不再返回一个结果,而是返回一个 Column对象,并且在并行作业之中 2, Column 可以用来在 DataFrame 的操作之中,比如 select filter和 groupBy计算 3, scala 内置函数分为聚合函数,集合函数(例如,array_contains),日期时间函数,混合函数(例如:求随机... 阅读全文

posted @ 2019-04-29 00:24 十七楼的羊阅读(198) 评论(0) 推荐(0) 编辑

2019年4月14日

spark sql 技术说明与常见的操作(其二)

摘要： Parquet 支持元数据合并： 1,主要是针对多个 Parquet文件，并且有着可以互相兼容进行合并 2,开启自动合并的两种方式: 1),读取 Parquet文件时将数据源选项 mergeSchema 设置为true 2),使用 SQLContext.setConf() 将 spark.sql.parquet.mergeSchema设置为 true package da... 阅读全文

posted @ 2019-04-14 12:06 十七楼的羊阅读(536) 评论(0) 推荐(0) 编辑

2019年4月13日

docker 打包应用程序

摘要： docker 打包应用程序: 1,针对经常更换的环境问题部署的一套系统 2,部署web项目(python程序)是为了项目测试使用首先配置 centso 环境 docker pull centos # 指定启动 --net=host 可以和宿主机通信 docker run --net=host -ti 9aec5c5fe4ba /bin/bash ... 阅读全文

posted @ 2019-04-13 15:25 十七楼的羊阅读(2449) 评论(0) 推荐(0) 编辑

docker 安装实时监控系统 grafana+influxDB

摘要： docker 常用命令: 1,首先停止容器运行，然后删除容器，最后删除镜像 # 查看所有的容器( -a 表明包括没有运行) docker ps -a # 停止容器 containerId docker stop f23d164a204a # 删除所有的容器 docker rm $(docker ps -a -q) # 查看所有... 阅读全文

posted @ 2019-04-13 00:02 十七楼的羊阅读(930) 评论(0) 推荐(0) 编辑

2019年4月10日

大数据ui界面 zeppelin的使用

摘要：本次使用 hadoop-2.7.0+spark-2.1.1-bin-hadoop2.7+zeppelin-0.8.1-bin-all使用步骤: 1,配置 zeppelin-env.sh export JAVA_HOME=/home/hadoop/jdk-11.0.2 export SPARK_HOM 阅读全文

posted @ 2019-04-10 20:11 十七楼的羊阅读(897) 评论(0) 推荐(0) 编辑

公告