摘要: Spark SQL UDF和UDAF/** * scala代码 */package com.tom.spark.sqlimport org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFu... 阅读全文
posted @ 2017-10-18 17:47 柚子=_= 阅读(164) 评论(0) 推荐(0) 编辑
摘要: 一、Spark SQL下的Parquet使用最佳实践1)过去整个业界对大数据的分析的技术栈的Pipeline一般分为以下两种方式:a)Data Source -> HDFS -> MR/Hive/Spark(相当于ETL)-> HDFS Parquet -> Spark SQL/Impala -> ... 阅读全文
posted @ 2017-10-18 15:09 柚子=_= 阅读(1020) 评论(0) 推荐(0) 编辑
摘要: 查看端口情况1.netstat -ntpl2.iptables -F 清除预设表filter中的所有规则链的规则3.iptables -X 清除预设表filter中使用者自定链中的规则4.iptables -L ... 阅读全文
posted @ 2017-06-15 09:10 柚子=_= 阅读(764) 评论(0) 推荐(0) 编辑
摘要: 在Yarn框架中,调度器是一块很重要的内容。有了合适的调度规则,就可以保证多个应用可以在同一时间有条不紊的工作。最原始的调度规则就是FIFO,即按照用户提交任务的时间来决定哪个任务先执行,但是这样很可能一个大任务... 阅读全文
posted @ 2017-05-13 11:15 柚子=_= 阅读(347) 评论(0) 推荐(0) 编辑
摘要: 1. JVM堆内存划分这两天看到下面这篇文章的图不错。一图读懂JVM架构解析1.1 JDK7及以前的版本其中最上一层是Nursery内存,一个对象被创建以后首先被放到Nursery中的Eden内 存中,如果存活期... 阅读全文
posted @ 2017-05-07 19:03 柚子=_= 阅读(320) 评论(0) 推荐(0) 编辑
摘要: 参考:http://www.cnblogs.com/java-zhao/category/776216.html堆内存划分为 Eden、Survivor 和 Tenured/Old 空间,如下图所示:从年轻代空间... 阅读全文
posted @ 2017-05-07 15:27 柚子=_= 阅读(281) 评论(0) 推荐(0) 编辑
摘要: 一些常用的 Linux iptables 规则,请根据自己的具体需要再修改。# 1. 删除所有现有规则1iptables -F# 2. 设置默认的 chain 策略123iptables-PINPUTDROPip... 阅读全文
posted @ 2017-05-06 17:07 柚子=_= 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 原文出处: int32bit(已授权转载) ag:比grep、ack更快的递归搜索文件内容。tig:字符模式下交互查看git项目,可以替代git命令。mycli:mysql客户端,支持语法高亮和命令补全,效果... 阅读全文
posted @ 2017-05-06 16:34 柚子=_= 阅读(597) 评论(0) 推荐(0) 编辑
摘要: 原文出处: 不会停的蜗牛 通过本篇文章可以对ML的常用算法有个常识性的认识,没有代码,没有复杂的理论推导,就是图解一下,知道这些算法是什么,它们是怎么应用的,例子主要是分类问题。每个算法都看了好几个视频,挑出... 阅读全文
posted @ 2017-05-06 16:05 柚子=_= 阅读(135) 评论(0) 推荐(0) 编辑
摘要: 功能开关:参数默认值或限制说明参数默认值功能-XX:-AllowUserSignalHandlers限于Linux和Solaris,默认不启用允许为java进程安装信号处理器,信号处理参见类:sun.misc.S... 阅读全文
posted @ 2017-05-02 16:41 柚子=_= 阅读(155) 评论(0) 推荐(0) 编辑