摘要:
一、前言公司实用Hadoop构建数据仓库,期间不可避免的实用HiveSql,在Etl过程中,速度成了避无可避的问题。本人有过几个数据表关联跑1个小时的经历,你可能觉得无所谓,可是多次Etl就要多个小时,非常浪费时间,所以HiveSql优化不可避免。注:本文只是从sql层面介绍一下日常需要注意的点,不... 阅读全文
摘要:
一、前言 当前大数据概念特别流行,其中根据数据做决策,根据数据做分析已经成为每个公司必备的能力。 二、数据抽取 随之组建数据技术团队也顺理成章的事情,数据团队从业务数据库抽取数据到自己的分析数据库,这个过程称之为:数据抽取,原因如下: 三、自然演化体系结构 随着需求的不断增加,对抽取的要求越来越多, 阅读全文
摘要:
1、 Spark VSHadoop有哪些异同点? Hadoop:分布式批处理计算,强调批处理,常用于数据挖掘和数据分析。 Spark:是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速, Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还... 阅读全文
摘要:
一、区别总结:Callable定义的方法是call,而Runnable定义的方法是run。Callable的call方法可以有返回值,而Runnable的run方法不能有返回值,这是核心区别。Callable的call方法可抛出异常,而Runnable的run方法不能抛出异常。二、返回值的区别 他们... 阅读全文
摘要:
一、基本概念 在MapReduce中,一个准备提交执行的应用程序称为“作业(job)”,而从一个作业划分出的运行于各个计算节点的工作单元称为“任务(task)”。此外,Hadoop提供的分布式文件系统(HDFS)主要负责各个节点的数据存储,并实现了高吞吐率的数据读写。 在分布式存储和分布式计算方... 阅读全文
摘要:
介绍这篇文章之前,首先回答一个问题,以前都没有时区的概念,程序也写的好好的,为什么要计算时区哪?举个例子,比如有一个订单的时间是:2015-07-04 11:28:19,那么咋一看没什么问题,可是如果这个订单的时间让美国的人看,就没有意义了,因为他们不知道对应美国的时间到底是几点,可能是上午,也可能... 阅读全文
摘要:
最近很多人问我nginx lua的优势是什么?为什么?一、同步和异步、阻塞和非阻塞如果要说清楚这个问题首先要了解:同步和异步、阻塞和非阻塞的关系同步:php、java的正常代码都是同步执行的异步:javascript的回调函数就是异步的说白了自己写的程序里面如果没有回调函数都是同步的,常见的php、... 阅读全文
摘要:
使用javadoc比较容易生成文档,命令如下:javadoc -d doc -sourcepath src/main/java/ -subpackages com -encoding UTF-8 -charset UTF-8这样就能生成doc文档了 阅读全文
摘要:
最近需要解决Maven项目导入可执行的jar包的问题,如果项目不包含Spring,那么使用mvn assembly:assembly即可,详情可以参考:http://www.cnblogs.com/liqiu/p/3816068.html可是如果包含Spring,那么这么方法就不可行,报错:Conf... 阅读全文
摘要:
在正常情况下,sed将待处理的行读入模式空间,脚本中的命令就一条接着一条的对该行进行处理,直到脚本执行完毕,然后该行被输出,模式空间请空;然后重复刚才的动作,文件中的新的一行被读入,直到文件处理完备。但是,各种各样的原因,比如用户希望在某个条件下脚本中的某个命令被执行,或者希望模式空间得到保留以便下... 阅读全文
摘要:
查看目录下面的所有文件:#!/bin/bashcd /目标目录for file in $(ls *)do echo $filedone延伸的方法,查看目录下面的所有目录#!/bin/bashcd /export/bak/original_documentfor dir in $(ls spli... 阅读全文
摘要:
今天需要删除文件里面的换行符,比如有一个文件a.txt:1,2,34,5,61,2,34,5,61,2,34,5,61,2,34,5,61,2,34,5,61、使用vim删除换行符vim输入命令:%s/\n//g2、使用sed命令,例如 sed ':t;N;s/\n//;b t' a.txt结果:1... 阅读全文
摘要:
linux经常需要处理文件,如果文件比较大,那么需要切分成为若干的小文件再处理。命令:split比如有一个文件:ll -h 1431531915758 -rw-r--r-- 1 ticketdev ticketdev 9.1G May 15 12:18 14315319157589.1个G的大小,如... 阅读全文
摘要:
方法一 直接查询:SqlRowSet srcSqlRowSet = srcJdbcTemplate.queryForRowSet("SELECT * FROM tablename LIMIT 0"); //注意limit 0更合适List columneMetaList = new LinkedLi... 阅读全文
摘要:
首先安装ifstatwget http://distfiles.macports.org/ifstat/ifstat-1.1.tar.gztar xzvf ifstat-1.1.tar.gzcd ifstat-1.1./configuremakesudo make install然后查看#ifsta... 阅读全文
摘要:
1、GREATEST(n1,n2,n3,..........) 获取最大值testdb=#SELECT GREATEST(3,5,1,8,33,99,34,55,67,43); +---------------------------------------------------------+ |... 阅读全文
摘要:
最近使用vim的正则替换功能,非常强大一个文件:1,2,34,5,61,2,34,5,61,2,34,5,61,2,34,5,61,2,34,5,6现在需要删除逗号前面的内容,那么在vim敲入命令::%s/.*,//g得到的结果是: 3 6 3 6 3 6 3 6 3 ... 阅读全文
摘要:
一:JSTL格式化标签又称为I18N标签库,主要用来编写国际化的WEB应用,使用此功能可以对一个特定的语言请求做出合适的处理。例如:中国内地用户将显示简体中文,台湾地区则显示繁体中文,使用I18N格式化标签库还可以格式化数字和日期,例如同一数字或日趋,在不同国家可能有不同的格式,使用I18N格式标签... 阅读全文
摘要:
最近开发一个网站,经常使用JSTL,这种语法与以前的不同,开始用着非常吃力,今天总结一下,供大家参考。一、前言JSTL全名为JavaServer Pages Standard Tag Library,JSTL是由JCP(Java Community Process)所制定的标准规范,它主要提供给Ja... 阅读全文
摘要:
一、问题hive如何将a 1,2,3b 4,7c 5转化成为:a 1a 2a 3b 4b 7c 5二、原始数据cat row_column.txta 1,2,3b 4,... 阅读全文
摘要:
一、问题hive如何将a b 1a b 2a b 3c d 4c d 5c d 6变为:a b 1,2,3c d ... 阅读全文
摘要:
今天发现了一个折磨我一天的问题:在jsp文件中使用一直报错:[ERROR] 2013-12-09 15:03:20,740 method:org.apache.catalina.core.StandardWrapperValve.invoke(StandardWrapperValve.java:25... 阅读全文
摘要:
今天遇到了一个奇怪的问题:jsp代码如下:数据对比${name}在controller里面,有赋值: @RequestMapping(value = "/index.do") public String index(ModelMap modelMap) { modelMap... 阅读全文
摘要:
最近需要完善一个手机号码归属地查询的功能,比如:1590120,是北京地区动感地带卡,那么其他的手机号码归属地是哪里哪?一、建立数据表我找到了一份对应关系表,表结构:CREATE TABLE mobile_info( id int(10) NOT NULL, mobile_number char... 阅读全文
摘要:
最近一个月使用Postgresql的时候,经常遇到ltree的数据,感觉有些别扭,可是有绕不过去。今天决心整理一下,以后使用方便一些。一、简介 ltree是Postgresql的一个扩展类型,由两位国外PostgreSQL贡献者共同开发。网址如下:http://www.sai.msu.su/~me... 阅读全文
摘要:
以前遇到一个问题:sudo /etc/init.d/apache2 start * Starting web server apache2 ... 阅读全文
摘要:
经常遇到一种应用场景,将部分行的内容进行汇总、比较、排序。比如数据表名称test.test2select num,province from test.test2得到结果:1828;"黑龙江"137;"黑龙江"184;"黑龙江"183;"福建"125;"福建"143;"福建"119;"海南"109;... 阅读全文
摘要:
上一篇文章已经分享了搭建springmvc:http://www.cnblogs.com/liqiu/p/4252788.html这一篇来链接数据库postgresql1、在pom.xml添加几个依赖 org.postgresql post... 阅读全文
摘要:
JavaWeb: 报错信息The superclass "javax.servlet.http.HttpServlet" was not found on the Java Build Path今天建立了一个Javaweb工程,并在eclipse中配置了Web容器Tomcat。JSP页面顶端出现“红... 阅读全文
摘要:
一、建立Maven项目 使用Eclipse的maven构建一个web项目,以构建SpringMVC项目为例:1.1 选择建立Maven Project选择File -> New -> Other,在New窗口中选择 Maven -> Maven Project。点击newxt1.2 选... 阅读全文
摘要:
背书 随着大数据的到来,经常听到相关的词汇,维度、指标、BI、PV、UV等等,今天整理了这些词汇。 DW DW是Data Warehouse的缩写,即数据仓库。 DW要区别于普通数据库,数据仓库用于支持决策,面向分析型数据处理;而普通数据库主要服务于软件/网站,对于一致性/事物要求较高。 BI BI 阅读全文
摘要:
大家在使用shell脚本调用hive命令的时候,发现hive的中间过程竟然打印到错误输出流里面,这样在查看错误日志的时候,需要过滤这些没用的信息,那么可以使用如下的配置参数。set hive.session.silent=true; (默认是false)例如:hive> select from_or... 阅读全文
摘要:
在行首添加字符:%s/^/your_word/在行尾添加字符%s/$/your_word/ 阅读全文
摘要:
安装docker的镜像ubuntu,链接:http://www.cnblogs.com/liqiu/p/4162719.html一、登录ubuntu@~ $ docker run -i -t 9bd07e480c5b /bin/bashroot@d411227dd25b:/# 二、安装登录sshro... 阅读全文
摘要:
前两篇文章介绍了docker的基本命令如何安装hadoop那么大家会比较了解docker的基本语法的安装过程。那么咱们今天来一起安装一下hive。安装1、下载gitHub,地址:https://github.com/prasanthj/docker-hive-on-tez。如果背墙了,可以选择下载z... 阅读全文
摘要:
上一篇文章介绍了一些docker的基本命令,这篇文章来安装一个HADOOP一、下载hadoop镜像@~/git/github/docker-ambari (master)$ docker pull sequenceiq/hadoop-docker:2.6.0Pulling repository se... 阅读全文
摘要:
最近听说docker很火,这两天学习了一下。本人实用的是mac os操作系统。有关什么是docker、docker的好处以及安装,请参考:http://tech.uc.cn/?p=2726一、基本命令1、安装ubuntu虚拟机docker pull ubuntu2、查看镜像@~ $ docker i... 阅读全文
摘要:
首先查看一个sql1、首先存在一个数据表tmpCREATE TABLE tmp( platform string, channel string, chan_value string, uid string, host int, logtime string, bd_so... 阅读全文
摘要:
1、创建test,如果存在先删除hbase(main):010:0> disable 'test'0 row(s) in 1.4250 secondshbase(main):011:0> drop 'test'0 row(s) in 0.5540 secondshbase(main):012:0> ... 阅读全文
摘要:
一、问题问题很简单,看下面一段tmp.sh代码:#!/bin/shx="this is the initial value of x"cat /tmp/tmp | while read line;do x="$line" echo $xdoneecho x = $x/tm... 阅读全文