摘要: 系统背景 广播变量 1. 广播变量的初始化 1.1.executor端,存放广播变量的对象使用非静态,因为静态变量是属于类的,不能使用构造函数来初始化。在executor端使用静态的时候,它只是定义的时候的一个状态,而在初始化时设置的值取不到。而使用非静态的对象,其构造函数的初始化在driver端执 阅读全文
posted @ 2018-11-27 11:12 anitinaj 阅读(1372) 评论(0) 推荐(0) 编辑
摘要: spark streaming使用Kafka数据源进行数据处理,本文侧重讲述实践使用。一、基于receiver的方式在使用receiver的时候,如果receiver和partition分配不当,很容易造成数据倾斜,使个别executor工作繁重,拖累整体处理速度。receiver线程分配和part 阅读全文
posted @ 2018-11-27 11:10 anitinaj 阅读(212) 评论(0) 推荐(0) 编辑
摘要: #!/usr/bin/env bashsource /etc/profileecho " *************** start filter *************** "# get befor six month last day#m0=$(date -d "$(date -d 'mon 阅读全文
posted @ 2018-11-27 11:05 anitinaj 阅读(1122) 评论(0) 推荐(0) 编辑
摘要: 查看定时任务 crontab -l 注册定时任务 crontab -e然后就像 vim 一样编辑自己的定时任务。如: * * * * * . /home/hadoop/timer/check_job.sh >> /home/hadoop/timer/logs/check_job.log 定时任务解析 阅读全文
posted @ 2018-11-27 10:57 anitinaj 阅读(738) 评论(0) 推荐(0) 编辑
摘要: 作者编辑:杜晓蝶,王玮,任泽 Spark 静态内存管理详解一、 内容简介 spark从1.6开始引入了动态内存管理模式,即执行内存和存储内存之间可以互相抢占。spark提供两种内存分配模式,即:静态内存管理和动态内存管理。该系列文章分别对这两种内存管理模式的优缺点以及设计原理进行了分析。该篇文章主要 阅读全文
posted @ 2018-11-27 10:51 anitinaj 阅读(428) 评论(0) 推荐(0) 编辑
摘要: 作者编辑:王玮,胡玉林一.回顾在前面的一篇文章中我们介绍了spark静态内存管理模式以及相关知识https://blog.csdn.net/anitinaj/article/details/80901328 在上一篇文章末尾,我们陈述了传统spark静态内存管理模式的局限性:(1) 没有适用于所有应 阅读全文
posted @ 2018-11-27 10:49 anitinaj 阅读(594) 评论(0) 推荐(0) 编辑
摘要: 雷锋网(公众号:雷锋网)按:本文作者 qqfly,上海交通大学机器人所博士生,本科毕业于清华大学机械工程系,主要研究方向机器视觉与运动规划,会写一些好玩的内容在微信公众号:Nao(ID:qRobotics)。本文整理自知乎回答:机器学习中用来防止过拟合的方法有哪些? 给《机器视觉与应用》课程出大作业 阅读全文
posted @ 2018-11-27 10:45 anitinaj 阅读(1447) 评论(0) 推荐(0) 编辑
摘要: 序列化和反序列化作为Java里一个较为基础的知识点,那你能说一下序列化和反序列化底层是如何实现的吗? 一、基本概念 1、什么是序列化和反序列化 (1)Java序列化是指把Java对象转换为字节序列的过程,而Java反序列化是指把字节序列恢复为Java对象的过程; (2)序列化:对象序列化的最主要的用 阅读全文
posted @ 2018-07-02 15:12 anitinaj 阅读(6896) 评论(0) 推荐(1) 编辑
摘要: scala代码块 scala代码块 截取以某个字符开头,以某个字符结尾的字符串 1 def main(args: Array[String]): Unit = { 2 val s = "{{a61,a2,a3},{b1,b2,b3},{c1m,.,kkl,c2,c3}}" 3 val reg = P 阅读全文
posted @ 2018-03-27 10:33 anitinaj 阅读(2827) 评论(0) 推荐(0) 编辑
摘要: 1 概述 Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成。 Kafka凭借着自身的 阅读全文
posted @ 2018-03-22 12:01 anitinaj 阅读(202) 评论(0) 推荐(0) 编辑