摘要:
众所周知,Maven是一个约定优于配置的java构建工具,通常我们只需要定义非常少的内容,就可以根据package标签属性来构建生成的jar, war包的相关内容。 如果想要对maven中依赖的内容一起打包,就需要使用maven-assembly-plugin来实现,对于该插件,其基本的配置... 阅读全文
摘要:
Hive中的自定义函数允许用户扩展HiveQL,是一个非常强大的功能。Hive中具有多种类型的用户自定义函数。show functions命令可以列举出当前Hive会话中的所加载进来的函数,包括内置的以及用户加载的函数。 函数都有自身的使用文档,使用describe function命令就... 阅读全文
摘要:
Hadoop Settings由于Hadoop节点的系统配置,一些hadoop的设置可以减少运行系统中的瓶颈。首先,提高Java运行时的堆内存容量,也要和系统中的整体内存容量相关;其次,保持hadoop中派生的task数量与处理器数量相关。 一个比较好的规则是一个Reducer或两个Mapp... 阅读全文
摘要:
Java GC类型Java中的GC有哪几种类型? 参数描述UseSerialGC虚拟机运行在Client模式的默认值,打开此开关参数后,使用Serial+Serial Old收集器组合进行垃圾收集。UseParNewGC打开此开关参数后,使用ParNew+Serial Old收集器组合进... 阅读全文
摘要:
最近需要向组内其他成员普及一下关于Java测试用例的相关知识,特在此进行一下简单的学习和总结。JUnit简介JUnit是一个开源的Java单元测试框架,JUnit4对原有的JUnit框架进行了大幅度的改进,主要目标便是利用了Java中的Annotation,来代替以前必须要继承Abstr... 阅读全文
摘要:
Hive简介hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapRedu... 阅读全文
摘要:
在shell工具中,有专门的getopt函数,使用方法如下所示:while getopts "d:t:vh" opt; do case "${opt}" in "d") DATE="${OPTARG}" ;; "t") ID="$... 阅读全文
摘要:
今天需要将分析后的日志结果发布到网站上供其他人浏览,虽然用户可以通过直接使用url链接可以访问到对应的文件,但是毕竟还是不方便,没有一个类似文件浏览器的东西,可以直接查看文件夹和文件列表。 其实这样的工具在tomcat中本身就已经实现了,只不过以前没有使用。对于任何想要发布成文件服务的项目... 阅读全文
摘要:
在Hadoop中一个作业被提交后,其后具体的执行流程要经历Map任务的提交中间结果处理,Reduce任务的分配和执行直至完成这些过程,下面就是MapReduce中作业详细的执行流程图(摘自《Hadoop实战》)。 在整个过程中,客户端中,编写MapReduce代码,配置并提交作业;Jo... 阅读全文
摘要:
OS and File System根据Dell(因为我们的硬件采用dell的方案)关于hadoop调优的相关说明,改变几个Linux的默认设置,Hadoop的性能能够增长大概15%。 open file descriptors and files文件描述符是一个索引值,指向内核为每一个进程... 阅读全文