2016年1月29日

日常数据分析的主要内容仍是结构化计算

摘要: 日常业务中会出现各种各样的数据分析问题,但究其本质,其主要内容仍然是结构化数据的计算。比如: 指定时间段,计算各营业网点的月销售额比上期和同期比。 实现思路:对销售数据按时间段过滤,再按照营业网点、年、月进行三级分组汇总,最后进行跨行组的有序计算。 找出收盘价连续增长超过10天的股票。 实现思路:将 阅读全文

posted @ 2016-01-29 10:02 hivehooker 阅读(310) 评论(0) 推荐(0) 编辑

2016年1月19日

集算器协助java处理多样性数据源之HDFS

摘要: Java通过Hadoop提供的API访问HDFS不算困难,但针对其上文件的计算就比较麻烦。比如分组、过滤、排序等计算,用java来实现都比较复杂。集算器esproc能很好地协助java解决计算问题,同时也封装了HDFS的访问,借助esproc可以让java加强HDFS上文件的计算能力,结构化半结构... 阅读全文

posted @ 2016-01-19 09:32 hivehooker 阅读(246) 评论(0) 推荐(0) 编辑

2016年1月15日

集算器协助Java处理多样性数据源之Hive

摘要: Java使用jdbc连接Hive比较简单,但是Hive的计算能力相对于其它数据库的SQL而言较弱,要完成非常规的计算需要将数据取出后用Java进一步计算,编程比较麻烦。使用集算器配合Java编程,可以减少Java使用Hive时要进行复杂计算工作量。下面我们通过例子来看一下具体作法:Hive中的or... 阅读全文

posted @ 2016-01-15 08:20 hivehooker 阅读(360) 评论(0) 推荐(0) 编辑

2016年1月12日

集算器协助java处理多样性数据源之JSON

摘要: Java的json开源包一般只能解析json数据,没有运算功能。程序员自己写通用的程序来实现分组、排序、过滤、连接这些计算,相当麻烦。例如:用java写json文件条件过滤程序时,当条件表达式发生变化时就需要改写代码。如果要实现象SQL那样灵活的条件过滤,则需要自己实现动态表达式解析和求值,编程工... 阅读全文

posted @ 2016-01-12 08:54 hivehooker 阅读(716) 评论(0) 推荐(0) 编辑

2015年12月25日

集算器协助java处理多样性数据源之MongoDB

摘要: MongoDB不支持join,其官网上推荐的unity jdbc可以把数据取出来进行二次计算实现join运算,但这些join、group、函数、表达式等高级功能都是收费版才有,而且即使是收费版本,对子查询、窗口函数等复杂SQL运算仍不支持。其他免费的jdbc drive就只能支持最基本的SQL语句了... 阅读全文

posted @ 2015-12-25 17:44 hivehooker 阅读(463) 评论(0) 推荐(0) 编辑

2015年12月22日

集算器协助Java处理结构化文本之分组汇总

摘要: 直接用Java实现文体文件分组汇总会有如下的麻烦:1、文件不是数据库,不能用SQL访问。当分组、汇总表达式变化时,只能改写代码。而要实现灵活表达式的话,需要自己实现动态表达式解析和求值,编程工作量非常大。2、遍历过程中记录分组结果,结果小了还可以存在内存中,如果分组结果太大时要将中间结果缓存进临时文... 阅读全文

posted @ 2015-12-22 09:55 hivehooker 阅读(547) 评论(0) 推荐(0) 编辑

2015年12月18日

集算器协助Java处理结构化文本之条件过滤

摘要: 直接用Java实现文本文件中数据按条件过滤会有如下的麻烦:1、文件不是数据库,不能用SQL访问。当过滤条件变化时需要改写代码。如果要实现象SQL那样灵活的条件过滤,则需要自己实现动态表达式解析和求值,编程工作量非常大。2、文件太大时不能一次性装入内存处理,而采用逐步读入方式在考虑到性能时又会涉及到文... 阅读全文

posted @ 2015-12-18 09:14 hivehooker 阅读(468) 评论(0) 推荐(0) 编辑

2015年12月15日

集算器协助java处理结构化文本之导入数据库

摘要: 直接用JAVA将结构化文本文件导入数据库时,需要手工拼凑SQL语句,还需要处理各种麻烦情况,比如:表中数据是否已经存在,是要update还是要insert,文件中是否包含字段,文件中的字段是否和表字段一致。使用集算器来辅助Java编程,这些问题都不需要自己写代码解决。下面我们通过例子来看一下具体作法... 阅读全文

posted @ 2015-12-15 11:11 hivehooker 阅读(337) 评论(0) 推荐(0) 编辑

2015年12月11日

集算器协助java处理结构化文本之数据读入

摘要: JAVA只提供了指定分割符等最基本的数据读入功能,而其他常见功能都需要自己从底层去实现,比如:按列名读入指定列、指定列的次序、指定数据类型、无分割符等等。JAVA实现这类功能虽然不难,但代码很繁琐,很容易出错。使用集算器来辅助Java编程,这些问题都不需要自己写代码解决。下面我们通过例子来看一下具体... 阅读全文

posted @ 2015-12-11 08:50 hivehooker 阅读(634) 评论(0) 推荐(0) 编辑

2015年12月8日

集算器协助java处理结构化文本之对齐连接

摘要: 数据库有关联语句,可以方便地进行对齐连接运算,但有时数据是存储在文本文件中的,用JAVA直接计算需要写大量循环语句才能实现,代码繁琐且运行低效。使用集算器来辅助Java编程,可以方便高效地解决此类问题。下面我们通过例子来看一下具体作法。文本文件emp.txt存储着员工信息,EId等于1的员工不在该... 阅读全文

posted @ 2015-12-08 08:46 hivehooker 阅读(322) 评论(0) 推荐(0) 编辑

导航