11 2015 档案

摘要:在关联规则挖掘领域最经典的算法法是Apriori,其致命的缺点是需要多次扫描事务数据库。于是人们提出了各种裁剪(prune)数据集的方法以减少I/O开支支持度和置信度严格地说Apriori和FP-Tree都是寻找频繁项集的算法,频繁项集就是所谓的“支持度”比较高的项集,下面解释一下支持度和置信度的概... 阅读全文
posted @ 2015-11-26 23:29 zhanggl 阅读(1218) 评论(0) 推荐(0) 编辑
摘要:Apriori算法采用的是自底向上的方法,从1-频繁集开始,逐步找出高阶频繁集。它的基本流程是:第一次扫描交易数据库D时,产生1- 频繁集。在此基础上经过连接、修剪产生2-频繁集。以此类推,直到无法产生更高阶的频繁集为止。在第k次循环中,也就是产生k-频繁集的时候,首先产生 k-候选集,k-候选集中... 阅读全文
posted @ 2015-11-26 23:11 zhanggl 阅读(230) 评论(0) 推荐(0) 编辑
摘要:hive 表数据复合 struts类型STRUCT{a INT; b INT} 通过 c.a 来获得 a的值create table test1(id INT, info struct) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' COLLECT... 阅读全文
posted @ 2015-11-25 11:59 zhanggl 阅读(182) 评论(0) 推荐(0) 编辑
摘要:第19章queue函数队列head:返回队列第一个元素;tail 返回除第一个元素之外的队列;append返回尾部添加了指定元素的新队列class SlowAppendShow[T](elems: List[T]) { def head = elems.head def tail = new S... 阅读全文
posted @ 2015-11-22 16:49 zhanggl 阅读(337) 评论(0) 推荐(0) 编辑
摘要:Iterable 是序列(Seq), 集(Set) 映射(Map)的特质序列式有序的集合如数组和列表集合可以通过== 方法确定对每个对象最多包含一个映射包含了键值映射关系的集合列表缓存: 使用ListBuffer代替List 另一个理由是为了避免栈溢出的风险数组缓存: ArrayBuffer需要先... 阅读全文
posted @ 2015-11-21 18:56 zhanggl 阅读(360) 评论(0) 推荐(0) 编辑
摘要:列表: 列表是不可变,也就是说不能通过赋值改变列表的元素; 列表有递归结构,而数据是连续的 List 类型:List() 同样也是List(String) 列表是基于Nil (是空的)和::(列表从前端扩展) x :: xs 的一个第一个元素为x, 后面紧跟元素 xs 列表的操作: head... 阅读全文
posted @ 2015-11-21 18:48 zhanggl 阅读(338) 评论(0) 推荐(0) 编辑
摘要:class HDFSWordCount { def main (args: Array[String]) { if (args.length > 0){ for (line 0){ val lines = Source.fromFile(args(0)).getLines... 阅读全文
posted @ 2015-11-21 18:00 zhanggl 阅读(441) 评论(0) 推荐(0) 编辑
摘要:object TopNApp { def main (args: Array[String]) { if (args != 3) { System.err.println("usage: ") System.exit(1) //应用类型 val ... 阅读全文
posted @ 2015-11-21 17:15 zhanggl 阅读(1165) 评论(0) 推荐(0) 编辑
摘要:view bound:必须传入一个隐式转换函数class [T 0 坚持值是否大于 0val f = (_: Int) +(_ : Int)val b = sum(1, _: Int, 3) b(2) 输出结果 6闭包减少代码 private def fileHere = new File("."... 阅读全文
posted @ 2015-11-10 23:40 zhanggl 阅读(314) 评论(0) 推荐(0) 编辑