摘要: 1. 引言 前一篇中介绍了字符串KMP算法,其利用失配时已匹配的字符信息,以确定下一次匹配时模式串的起始位置。本文所要介绍的Boyer-Moore算法是一种比KMP更快的字符串匹配算法,它到底是怎么快的呢?且听下面分解。 不同于KMP在匹配过程中从左至右与主串字符做比较,Boyer-Moore算法是 阅读全文
posted @ 2017-08-22 10:34 于继海 阅读(134) 评论(0) 推荐(0) 编辑
摘要: 1. 引言 字符串匹配是极为常见的一种模式匹配。简单地说,就是判断主串T中是否出现该模式串P,即P为T的子串。特别地,定义主串为T[0…n−1],模式串为P[0…p−1],则主串与模式串的长度各为n与p。 暴力匹配 暴力匹配方法的思想非常朴素: 下图给出了暴力匹配的例子,主串T="ababcabca 阅读全文
posted @ 2017-08-22 10:34 于继海 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 1. 问题描述 收集日志avro数据中有两个Map字段appInstall、appUse分别表示已安装的app、正在使用的app,且key值为app的名称,value值为app使用信息。现在要得到一份匹配上购物类app支付宝|京东|淘宝|天猫的用户名单;MapReduce 解决办法如下: publi 阅读全文
posted @ 2017-08-22 10:33 于继海 阅读(304) 评论(0) 推荐(0) 编辑
摘要: 最近特别喜欢用Pig,拥有能满足大部分需求的内置函数(built-in functions),支持自定义函数(user defined functions, UDF),能load 纯文本、avro等格式数据;illustrate看pig执行步骤的结果,describe看alias的schema;以轻 阅读全文
posted @ 2017-08-22 10:33 于继海 阅读(115) 评论(0) 推荐(0) 编辑
摘要: // ... literals are interned by the compiler // and thus refer to the same object String s1 = "abcd"; String s2 = "abcd"; s1 == s2; // --> true // ... 阅读全文
posted @ 2017-08-22 10:33 于继海 阅读(158) 评论(0) 推荐(0) 编辑
摘要: 【十大经典数据挖掘算法】系列 1. 引言 k-means与kNN虽然都是以k打头,但却是两类算法——kNN为监督学习中的分类算法,而k-means则是非监督学习中的聚类算法;二者相同之处:均利用近邻信息来标注类别。 聚类是数据挖掘中一种非常重要的学习流派,指将未标注的样本数据中相似的分为同一类,正所 阅读全文
posted @ 2017-08-22 10:32 于继海 阅读(313) 评论(0) 推荐(0) 编辑
摘要: 1. 引言 Apache Kylin(麒麟)是由eBay开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据。底层存储用的是HBase,数据输入与cube building用的是Hive,中间数据存储用的是HDFS。搭建环境: 本文提供的是半分布式安 阅读全文
posted @ 2017-08-22 10:32 于继海 阅读(125) 评论(0) 推荐(0) 编辑
摘要: 1. 数据模型 Schema Pig Latin表达式操作的是relation,FILTER、FOREACH、GROUP、SPLIT等关系操作符所操作的relation就是bag,bag为tuple的集合,tuple为有序的field列表集合,而field表示数据块(A field is a pie 阅读全文
posted @ 2017-08-22 10:32 于继海 阅读(470) 评论(0) 推荐(0) 编辑
友情链接:回力鞋 | 中老年高档女装