随笔分类 -  BigData-Hadoop

摘要:详细错误信息如下: 错误原因: 每一个Spark任务都会占用一个SparkUI端口,默认为4040,如果被占用则依次递增端口重试。但是有个默认重试次数,为16次。16次重试都失败后,会放弃该任务的运行。 解决方法 初始化SparkConf时,添加conf.set(“spark.port.maxRet 阅读全文
posted @ 2019-03-19 14:16 cctext 阅读(2747) 评论(0) 推荐(0) 编辑
摘要:示例JAVA代码: MyEntity.java import java.io.Serializable; public class MyEntity implements Serializable{ private String id; private String name; private St 阅读全文
posted @ 2018-12-05 17:33 cctext 阅读(4633) 评论(0) 推荐(0) 编辑
摘要:安装环境三台centos7 vmw: 1)[各节点]使用本地yum repo进行安装时: 需要在各个节点(192.168.0.141,192.168.0.142,192.168.0.143)上设置本地repo(/etc/yum.repos.d/) 2)[主节点]需要安装httpd,并在/var/ww 阅读全文
posted @ 2018-11-15 10:36 cctext 阅读(3012) 评论(0) 推荐(0) 编辑
摘要:产生问题原因: 环境hadoop2,cdh5创建 使用hadoop fs -mdkir /use/xxx创建文件路径时,出现权限问题 前提我们已经把当前用户zhangsan和root放到/etc/suders中。 创建目录/user/zhangsan抛出异常: 解决步骤: 1.查看/user目录的用 阅读全文
posted @ 2018-11-13 17:03 cctext 阅读(3496) 评论(0) 推荐(0) 编辑
摘要:几种给Dataset增加列的方式 首先创建一个DF对象: 第一种方式:使用lit()增加常量(固定值) 可以是字符串类型,整型 注意: lit()是spark自带的函数,需要import org.apache.spark.sql.functions Since 1.3.0def lit(litera 阅读全文
posted @ 2018-10-29 18:54 cctext 阅读(18616) 评论(0) 推荐(0) 编辑
摘要:需求: 由于一个大文件,在spark中加载性能比较差。于是把一个大文件拆分为多个小文件后上传到hdfs,然而在spark2.2下如何加载某个目录下多个文件呢? 测试结果: 阅读全文
posted @ 2018-10-19 15:57 cctext 阅读(11605) 评论(0) 推荐(0) 编辑
摘要:方案一(使用ForeachWriter Sink方式): 方案二(ds.writeStream().partitionBy("field")): java代码: 更多方式,请参考《在Spark结构化流readStream、writeStream 输入输出,及过程ETL》 阅读全文
posted @ 2018-10-12 10:53 cctext 阅读(1840) 评论(0) 推荐(0) 编辑
摘要:Dataset的groupBy agg示例 Dataset Join示例: join condition另外一种方式: BroadcastHashJoin示例: 打印结果: SparkSQL Broadcast HashJoin 打印日志 阅读全文
posted @ 2018-10-12 10:04 cctext 阅读(4024) 评论(0) 推荐(1) 编辑
摘要:简介 Structured Streaming is a scalable and fault-tolerant stream processing engine built on the Spark SQL engine. You can express your streaming comput 阅读全文
posted @ 2018-08-12 16:37 cctext 阅读(1485) 评论(0) 推荐(0) 编辑
摘要:可以通过以下几种方式设置: 1)bin/spark-submit 可以直接读取conf/spark-defaults.conf文件 每一行为一个key和valuespark.master spark://5.6.7.8:7077spark.executor.memory 4gspark.eventL 阅读全文
posted @ 2018-07-31 09:35 cctext 阅读(6517) 评论(0) 推荐(0) 编辑
摘要:方案一:使用reduceByKey 数据word.txt 代码: 输出: 方案二:使用spark sql 使用spark sql实现代码: 结果: 方案二:使用spark streaming实时流分析 参考《http://spark.apache.org/docs/latest/streaming- 阅读全文
posted @ 2018-07-26 10:46 cctext 阅读(1185) 评论(0) 推荐(0) 编辑
摘要:JavaRDD 转化为 Dataset<Row>方案一: 实体类作为schema定义规范,使用反射,实现JavaRDD转化为Dataset<Row> Student.java实体类: 实现代码: JavaRDD 转化为 Dataset<Row>方案二: 使用schema生成方案 阅读全文
posted @ 2018-07-25 14:38 cctext 阅读(13955) 评论(0) 推荐(2) 编辑
摘要:制作测试数据源: spark scala实现代码: 打印结果: spark java代码实现: 输出结果同上边输出结果。 Java 中使用combineByKey实现TopN: 输出: Spark使用combineByKeyWithClassTag函数实现TopN combineByKeyWithC 阅读全文
posted @ 2018-07-24 23:57 cctext 阅读(2564) 评论(0) 推荐(1) 编辑
摘要:https://blog.csdn.net/sptoor/article/details/11484855 https://blog.csdn.net/tengxing007/article/details/53241169d账户名可以自己设置,也可以修改hadoop-core的版本 https:/ 阅读全文
posted @ 2018-07-05 00:06 cctext 阅读(967) 评论(0) 推荐(0) 编辑
摘要:问题: windows开发机运行spark程序,抛出异常:ERROR Shell: Failed to locate the winutils binary in the hadoop binary path,但是可以正常执行,并不影响结果。 这里所执行的程序是: 解决方案: 1.下载winutil 阅读全文
posted @ 2018-07-02 19:57 cctext 阅读(2614) 评论(0) 推荐(0) 编辑
摘要:Spark作业基本运行原理: 我们使用spark-submit提交一个spark作业之后,这个作业就会启动一个对应的Driver进程。根据你使用的部署模式(deploy-mode)不同:1)Driver进程可能在本地启动,也可能在集群中的某个工作节点上启动;2)Driver进程本身会根据我们设置的参 阅读全文
posted @ 2018-05-09 14:48 cctext 阅读(621) 评论(0) 推荐(0) 编辑
摘要:声明:本文参考《 大数据:Spark mlib(三) GradientDescent梯度下降算法之Spark实现》 1. 什么是梯度下降? 梯度下降法(英语:Gradient descent)是一个一阶最优化算法,通常也称为最速下降法。 要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对 阅读全文
posted @ 2018-03-31 14:28 cctext 阅读(1103) 评论(0) 推荐(0) 编辑
摘要:转自:http://lxw1234.com/archives/2015/04/176.htm,Hive分析窗口函数(一) SUM,AVG,MIN,MAX 之前看到大数据田地有关于max()over(partition by)的用法,今天恰好工作中用到了它,但是使用中遇到了一个问题:在max(rsrp 阅读全文
posted @ 2018-03-28 22:45 cctext 阅读(17514) 评论(0) 推荐(0) 编辑
摘要:给定了一列数字,需要判定该列中连续的数据字有多少条记录: 阅读全文
posted @ 2018-03-26 14:33 cctext 阅读(185) 评论(0) 推荐(0) 编辑