我是属车的

2019年12月24日

摘要： 1、sparksql是Spark用来处理结构化数据的一个模块，它提供了两个抽象DataFrame和DataSet并且作为分布式SQL查询引擎的作用。 Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行效阅读全文

posted @ 2019-12-24 17:25 我是属车的阅读(373) 评论(0) 推荐(0) 编辑

spark以rdd方式读写mysql

摘要： 1、读取mysql数据。从mysql读取的时候需要传入数据边界，数据类型是long，一般建议主键列，如果是时间列，需要转换成时间戳。参考demo：https://github.com/asker124143222/spark-demo package com.home.spark import j 阅读全文

posted @ 2019-12-24 16:48 我是属车的阅读(2232) 评论(0) 推荐(0) 编辑

spark的map和mapPartitions

摘要： 1、map是对数据1对1的遍历，传输效率相对比较差，相比起mapPartitions不会出现内存溢出 2、mapPartitions 对一个rdd里所有分区遍历效率优于map算子，减少了发送到执行器执行的交互次数，mapPartitions是批量将分区数据一次发送但是执行器内存不够的则可能会出现阅读全文

posted @ 2019-12-24 16:35 我是属车的阅读(2539) 评论(0) 推荐(0) 编辑

2019年11月26日

scala 语法速查

摘要：摘自官网 variables var x = 5 Good x = 6 Variable. val x = 5 Bad x = 6 Constant. var x: Double = 5 Explicit type. functions Good def f(x: Int) = { x * x } 阅读全文

posted @ 2019-11-26 14:25 我是属车的阅读(240) 评论(0) 推荐(0) 编辑

2019年10月17日

spark 在yarn模式下提交作业

摘要： 1、spark在yarn模式下提交作业需要启动hdfs集群和yarn，具体操作参照：hadoop 完全分布式集群搭建 2、spark需要配置yarn和hadoop的参数目录 3、将spark整个目录分发到hdfs集群中每台机器上，分发命令可以参考：linux rsync 如果不想用rsync也可以直阅读全文

posted @ 2019-10-17 14:07 我是属车的阅读(771) 评论(0) 推荐(0) 编辑

spark的wordcount

摘要：在开发环境下实现第一个程序wordcount 1、下载和配置scala，注意不要下载2.13，在spark-core明确支持scala2.13前，使用2.12或者2.11比较好。 2、windows环境下的scala配置，可选 3、开发工具IDEA环境设置，全局环境添加scala的sdk，注意sca 阅读全文

posted @ 2019-10-17 10:28 我是属车的阅读(1197) 评论(0) 推荐(0) 编辑

2019年9月5日

spark安装

摘要： 1、下载地址 http://spark.apache.org/downloads.html 2、解压 3、本地模式运行第一个程参数说明： 4、进入shell编程模式如果启动spark shell时没有指定master地址，但是也可以正常启动spark shell和执行spark shell中的程阅读全文

posted @ 2019-09-05 11:44 我是属车的阅读(586) 评论(0) 推荐(0) 编辑

2019年9月4日

hadoop mapreduce求解有序TopN（高效模式）

摘要： 1、在map阶段对数据先求解改分片的topN，到reduce阶段再合并求解一次，求解过程利用TreeMap的排序特性，不用自己写算法。 2、样板数据，类似如下 3、code 3.1 mapper 3.2 reducer 3.3 driver 阅读全文

posted @ 2019-09-04 14:14 我是属车的阅读(478) 评论(0) 推荐(0) 编辑

2019年8月31日

hadoop 自定义OutputFormat

摘要： 1、继承FileOutputFormat，复写getRecordWriter方法 2、实现RecordWriter 3、map 4、reducer 5、driver 阅读全文

posted @ 2019-08-31 22:50 我是属车的阅读(935) 评论(0) 推荐(0) 编辑

hadoop mapreduce求解有序TopN

摘要：利用hadoop的map和reduce排序特性实现对数据排序取TopN条数据。代码参考：https://github.com/asker124143222/wordcount 1、样本数据，假设是订单数据，求解按订单id排序且每个订单里价格最高前三，从高到低排序。 2、求解思路 3、code 3. 阅读全文

posted @ 2019-08-31 15:08 我是属车的阅读(499) 评论(0) 推荐(0) 编辑

公告