willian
18702515157@163.com
摘要: 1.修改spark-env.sh 插入以上代码 2.启动spark集群,此时输入jps会出现 [root@master sbin]# jps 17394 Jps 16956 -- main class information unavailable 这是正常的 3.配置idea远程调试 由于配置文件 阅读全文
posted @ 2017-03-25 13:07 willian_zhang 阅读(2661) 评论(0) 推荐(0) 编辑
摘要: spark由于一些链式的操作,spark 2.1目前只支持hive1.2.1 到http://mirror.bit.edu.cn/apache/hive/hive-1.2.1/ 网址下载hive1.2.1的部署包 2.配置系统环境变量/etc/profile 3. 解压 4.修改配置文件 可不做任何 阅读全文
posted @ 2017-03-23 22:43 willian_zhang 阅读(1440) 评论(0) 推荐(0) 编辑
摘要: spark sql是spark用来处理结构化数据的模块,它提供了一个编程抽象叫做dataframe,并且作为分布式sql查询引擎的作用 与rdd类似,dataframe是一个分布式数据容器,除了数据以外,还记录了数据的结构信息,schema。 dsl风格 sql风格 sql风格要先用register 阅读全文
posted @ 2017-03-23 10:32 willian_zhang 阅读(164) 评论(0) 推荐(0) 编辑
摘要: 1.通过以上代码提交运行jar包, 2. 阅读全文
posted @ 2017-03-22 16:41 willian_zhang 阅读(475) 评论(0) 推荐(0) 编辑
摘要: 如上,加入存储数据的类,并重写比较方法即可 阅读全文
posted @ 2017-03-19 11:14 willian_zhang 阅读(187) 评论(0) 推荐(0) 编辑
摘要: 问题背景:pairRDD 调用spark存入文件的api时,最后结果文件的个数(就是分区的个数)取决于PariRDD中的key的hash值, 解决后可是相同key的数据到同一个partitioner中 解决方法: 整个代码如下: 阅读全文
posted @ 2017-03-18 23:14 willian_zhang 阅读(1165) 评论(0) 推荐(0) 编辑
摘要: mapPartitionsWithIndex 传入参数是一个接受两个参数的函数,第一参数是partition的编号,第二个参数是各个分区的数据迭代器 aggregate val rdd3 = sc.parallelize(List("12","23","345","4567"),2)rdd3.agg 阅读全文
posted @ 2017-03-17 16:38 willian_zhang 阅读(515) 评论(0) 推荐(0) 编辑
摘要: 安装python3(自动安装pip3): yum install gcc yum install openssl-devel bzip2-devel expat-devel gdbm-devel readline-devel sqlite-devel #不安装依赖可能安装完成后没有pip3 软件 到 阅读全文
posted @ 2017-03-13 11:16 willian_zhang 阅读(1185) 评论(0) 推荐(0) 编辑
摘要: 1: spark使用python3 pip3 install py4j (服务器和本机都要安装) 服务器提交python3脚本 本机调试python脚本 Environment variables,点击后面的编辑框,在变量栏目中依次添加PYTHONPATH,值为spark目录/python,SPAR 阅读全文
posted @ 2017-03-11 09:10 willian_zhang 阅读(248) 评论(0) 推荐(0) 编辑
摘要: 1:spark的算子分类 2:创建rdd的两种方式 2:spark python高级算子 1.mapPartitions 2.mapPartitionsWithIndex Similar to mapPartitions, but also provides a function with an i 阅读全文
posted @ 2017-03-10 12:48 willian_zhang 阅读(666) 评论(0) 推荐(0) 编辑