2017 年 8月 22 日随笔档案 - 于继海

2017年8月22日

摘要： 1. 引言前一篇中介绍了字符串KMP算法，其利用失配时已匹配的字符信息，以确定下一次匹配时模式串的起始位置。本文所要介绍的Boyer-Moore算法是一种比KMP更快的字符串匹配算法，它到底是怎么快的呢？且听下面分解。不同于KMP在匹配过程中从左至右与主串字符做比较，Boyer-Moore算法是阅读全文

posted @ 2017-08-22 10:34 于继海阅读(134) 评论(0) 推荐(0) 编辑

【模式匹配】KMP算法的来龙去脉

摘要： 1. 引言字符串匹配是极为常见的一种模式匹配。简单地说，就是判断主串T中是否出现该模式串P，即P为T的子串。特别地，定义主串为T[0…n−1]，模式串为P[0…p−1]，则主串与模式串的长度各为n与p。暴力匹配暴力匹配方法的思想非常朴素：下图给出了暴力匹配的例子，主串T="ababcabca 阅读全文

posted @ 2017-08-22 10:34 于继海阅读(195) 评论(0) 推荐(0) 编辑

Pig 实现关键词匹配

摘要： 1. 问题描述收集日志avro数据中有两个Map字段appInstall、appUse分别表示已安装的app、正在使用的app，且key值为app的名称，value值为app使用信息。现在要得到一份匹配上购物类app支付宝|京东|淘宝|天猫的用户名单；MapReduce 解决办法如下： publi 阅读全文

posted @ 2017-08-22 10:33 于继海阅读(304) 评论(0) 推荐(0) 编辑

Pig + Ansj 统计中文文本词频

摘要：最近特别喜欢用Pig，拥有能满足大部分需求的内置函数（built-in functions），支持自定义函数（user defined functions, UDF），能load 纯文本、avro等格式数据；illustrate看pig执行步骤的结果，describe看alias的schema；以轻阅读全文

posted @ 2017-08-22 10:33 于继海阅读(115) 评论(0) 推荐(0) 编辑

【JDK源码分析】String的存储区与不可变性

摘要： // ... literals are interned by the compiler // and thus refer to the same object String s1 = "abcd"; String s2 = "abcd"; s1 == s2; // --> true // ... 阅读全文

posted @ 2017-08-22 10:33 于继海阅读(158) 评论(0) 推荐(0) 编辑

【十大经典数据挖掘算法】k

摘要：【十大经典数据挖掘算法】系列 1. 引言 k-means与kNN虽然都是以k打头，但却是两类算法——kNN为监督学习中的分类算法，而k-means则是非监督学习中的聚类算法；二者相同之处：均利用近邻信息来标注类别。聚类是数据挖掘中一种非常重要的学习流派，指将未标注的样本数据中相似的分为同一类，正所阅读全文

posted @ 2017-08-22 10:32 于继海阅读(313) 评论(0) 推荐(0) 编辑

Apache Kylin 部署之不完全指南

摘要： 1. 引言 Apache Kylin（麒麟）是由eBay开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据。底层存储用的是HBase，数据输入与cube building用的是Hive，中间数据存储用的是HDFS。搭建环境：本文提供的是半分布式安阅读全文

posted @ 2017-08-22 10:32 于继海阅读(125) 评论(0) 推荐(0) 编辑

【Pig源码分析】谈谈Pig的数据模型

摘要： 1. 数据模型 Schema Pig Latin表达式操作的是relation，FILTER、FOREACH、GROUP、SPLIT等关系操作符所操作的relation就是bag，bag为tuple的集合，tuple为有序的field列表集合，而field表示数据块（A field is a pie 阅读全文

posted @ 2017-08-22 10:32 于继海阅读(470) 评论(0) 推荐(0) 编辑

于继海

公告