摘要: 1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reduc 阅读全文
posted @ 2016-05-05 15:20 段星星 阅读(8661) 评论(1) 推荐(1) 编辑
摘要: shell编程中条件表达式的使用 if 的三种条件表达式 [ ] && ——快捷if shell的if与c语言if的功能上的区别 以command作为if 条件 以多条command或者函数作为if 条件 以函数作为if条件 (函数就相当于command,函数的优点是其return值可以自定义) i 阅读全文
posted @ 2016-05-04 11:44 段星星 阅读(6147) 评论(0) 推荐(0) 编辑
摘要: 变量说明: $$Shell本身的PID(ProcessID)$!Shell最后运行的后台Process的PID$?最后运行的命令的结束代码(返回值)$-使用Set命令设定的Flag一览$*所有参数列表。如"$*"用「"」括起来的情况、以"$1 $2 … $n"的形式输出所有参数。$@所有参数列表。如 阅读全文
posted @ 2016-05-04 11:11 段星星 阅读(687) 评论(0) 推荐(0) 编辑
摘要: 简介 ggplot2包是基于Wilkinson在《Grammar of Graphics》一书中所提出的图形语法的具体实现, 这套图形语法把绘图过程归纳为data, transformation, scale, coordinates, elements, guides, display等一系列独立 阅读全文
posted @ 2016-04-28 11:12 段星星 阅读(46240) 评论(0) 推荐(1) 编辑
摘要: 前言 R树在数据库等领域做出的功绩是非常显著的。它很好的解决了在高维空间搜索等问题。它把B树的思想很好的扩展到了多维空间,采用了B树分割空间的思想,并在添加、删除操作时采用合并、分解结点的方法,保证树的平衡性。 因此,R树就是一棵用来存储高维数据的平衡树。 rtree的好处 例如我想查找公司附近查找 阅读全文
posted @ 2016-03-30 17:03 段星星 阅读(748) 评论(0) 推荐(0) 编辑
摘要: 占位符 阅读全文
posted @ 2016-03-22 12:02 段星星 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 简介 NumPy(Numerical Python简称) 是高性能科学计算和数据分析的基础包 为什么使用? 标准安装的Python中用列表(list)保存一组值,可以用来当作数组使用,不过由于列表的元素可以是任何对象,因此列表中所保存的是对象的指针。这样为了保存一个简单的[1,2,3],需要有3个指 阅读全文
posted @ 2016-03-22 11:59 段星星 阅读(561) 评论(0) 推荐(0) 编辑
摘要: 简介 本文主要介绍GEOJSON相关的操作 环境 gt-geojson-14.2.jar,json-simple-1.1.1.jar,jts-1.8.jar 直接上代码 代码 wkt格式的geometry转成json格式 public String evaluate(String wkt) { St 阅读全文
posted @ 2016-03-07 11:17 段星星 阅读(3693) 评论(3) 推荐(0) 编辑
摘要: 前言 今天我们来讲讲如何用awk进行网站日志分析,得到页面平均耗时排行 文件 [xingxing.dxx@30_28_6_20 ~]$ cat logs 222.83.181.42 - - [09/Oct/2010:04:04:03 +0800] GET /pages/international/t 阅读全文
posted @ 2016-01-28 20:30 段星星 阅读(432) 评论(0) 推荐(0) 编辑
摘要: 语法 awk [ -F re] [parameter...] ['pattern {action}' ] [-f progfile][in_file...] 获得普通外部变量 [xingxing.dxx@30_28_6_20 ~]$ test='test code' [xingxing.dxx@30 阅读全文
posted @ 2016-01-28 17:59 段星星 阅读(1064) 评论(0) 推荐(0) 编辑