系统架构 - 随笔分类 - 王安琪

大数据挖掘: FPGrowth初识--进行商品关联规则挖掘

摘要：关联规则的目的就是在一个数据集中找出项与项之间的关系，适用于在大数量的项集中发现关联共现的项。也被称为购物篮分析 (Market Basket analysis)，因为“购物篮分析”很贴切的表达了适用该算法情景中的一个子集。购物网站里你买了一个商品，旁边列出一系列买过该商品的人还买的其他商品，并且按置信度高低排序，一般会发现买手机的还会买充电器（买充电器的人不一定会买手机），买牙刷的还会买牙膏，这大概就是关联规则的用处。关联规则挖掘算法不只是能用在商品销售，使用它我们可以挖掘出更多的关联关系。阅读全文

posted @ 2016-02-02 10:55 王安琪阅读(5001) 评论(0) 推荐(4)

使用Hive或Impala执行SQL语句，对存储在HBase中的数据操作

摘要：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。 HBase（Hadoop Database），是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，只能通过Rowkey来取数据，无法进行SQL查询。因此如果Hive可以从HBase中取数据，并结合Hive的SQL查询功能，便能做到较为复杂的SQL查询操作。 Impala对存储在HDFS、HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台，Impala也使用相同的元数据，SQL语法（Hive SQL），ODBC驱动程序和用户界面（Hue Beeswax）。Impala还提供了一个熟悉的面向批量或实时查询和统一平台。达成目标：1、支持HBase多表联接查询等较复杂的SQL查询操作。阅读全文

posted @ 2015-12-17 10:46 王安琪阅读(4166) 评论(0) 推荐(3)

使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟

摘要：本文先简单介绍了Sqoop和Hive\HBase，然后详细说明了Sqoop的使用方法，最后对当前大数据领域实践提出了自己的一些看法。阅读全文

posted @ 2015-12-08 09:52 王安琪阅读(34495) 评论(7) 推荐(6)

朝花夕拾之--大数据平台CDH集群离线搭建

摘要：管理、部署Hadoop集群需要工具，Cloudera Manager便是其一。本文先是简要对比了当前的类似工具，而后详细记录了以离线方式部署CDH集群的步骤。最后对“讲究”一词提出了自己的观点。阅读全文

posted @ 2015-11-24 09:06 王安琪阅读(4387) 评论(2) 推荐(3)

使用Hive或Impala执行SQL语句，对存储在Elasticsearch中的数据操作(二)

摘要：CSSDesk 使用Hive或Impala执行SQL语句，对存储在Elasticsearch中的数据操作使用Hive或Impala执行SQL语句，对存储在Elasticsearch中的数据操作Hive Impala Elasticsearch Hadoop SQL使用Hive或... 阅读全文

posted @ 2015-11-03 22:01 王安琪阅读(2905) 评论(0) 推荐(0)

使用Hive或Impala执行SQL语句，对存储在Elasticsearch中的数据操作

摘要：我们的目标是：1. 支持Elasticsearch多表联接查询；2. 结合Elasticsearch搜索引擎提高SQL查询效率。Elasticsearch for Apache Hadoop能帮助我们实现这一目标吗？让我们拭目以待! 阅读全文

posted @ 2015-11-03 21:36 王安琪阅读(9299) 评论(6) 推荐(3)

A record--Offline deployment of Big Data Platform CDH Cluster

摘要：Deployment and Management of Hadoop clusters need tools, such as Cloudera Manager. In this article, I compare the tools briefly, and then record the step of deploying CDH cluster offline in detail. Finally, I expound the theory of 'handle delicately'. 阅读全文

posted @ 2015-10-22 21:56 王安琪阅读(1006) 评论(0) 推荐(3)

我的ElasticSearch集群部署总结--大数据搜索引擎你不得不知

摘要：摘要：世上有三类书籍：1、介绍知识，2、阐述理论，3、工具书；世间也存在两类知识：1、技术，2、思想。以下是我在部署ElasticSearch集群时的经验总结，它们大体属于第一类知识“techknowledge(技术)”。但其中也穿插一些我个人的理解。敬请指正。关键词：ElasticSearch, 搜索引擎, 集群, 大数据, Solr, 大数据阅读全文

posted @ 2015-10-07 22:26 王安琪阅读(9923) 评论(7) 推荐(6)

Spring配置文件外部化配置及.properties的通用方法

摘要：若是有其他代码需要此Spring属性配置，将Spring配置中的属性值设置迁移到外部的属性文件中，是必需的操作，这也可以使Spring配置文件更易读。在这里我们不仅要讨论Spring的外部化配置，还要深入探讨配置化文件（即.properties）的普遍应用方式。这样就可以在不用重新打包和重新部署应用的情况下，配置这些属性值。从开发过程来看，将通用变量提出，并可配，也是写出高可读、低耦合代码的必然途径。从结果来看，这对于灵活性地进行测试、运维工作，是非常有好处的。阅读全文

posted @ 2015-08-11 20:44 王安琪阅读(6893) 评论(1) 推荐(1)

JAVA基础拾遗-论线程池的线程粒度划分与深浅放置

摘要：多线程任务处理对提高性能很有帮助，在Java中提供的线程池也方便了对多线程任务的实现。使用它很简单，而如果进行了不正确的使用，那么代码将陷入一团乱麻。因此如何正确地使用它，如以下分享，这个技能你get到没？阅读全文

posted @ 2015-07-24 15:52 王安琪阅读(1706) 评论(3) 推荐(2)

使用Spring Security Oauth2完成RESTful服务password认证的过程

摘要：Spring Security与Oauth2整合步骤中详细描述了使用过程，但它对于入门者有些重量级，比如将用户信息、ClientDetails、token存入数据库而非内存。配置过程比较复杂，经过几天时间试验终于成功，下面我将具体的使用Spring Security Oauth2完成password认证的过程记录下来与大家分享。阅读全文

posted @ 2015-07-07 09:29 王安琪阅读(21541) 评论(13) 推荐(1)

如何解决分布式系统数据事务一致性问题（HBase加Solr）

摘要：对于所有的分布式系统，我想事务一致性问题是极其非常重要的问题，因为它直接影响到系统的可用性。本文以下所述所要解决的问题是：对于入HBase和Solr的过程，如何保证HBase中写入的数据与Solr中写入的数据完全一致。这是做大数据分布式必备的知识。阅读全文

posted @ 2015-06-15 14:53 王安琪阅读(8138) 评论(0) 推荐(9)

应用Spring MVC发布restful服务是怎样的一种体验

摘要：约定优于配置”这是一个相当棒的经验，SOAP服务性能差、基于配置、紧耦合，restful服务性能好、基于约定、松耦合，现在我就把使用Spring MVC发布restful服务的过程同大家分享。代码之优雅、过程之简单、编码之愉快，不是发布SOAP服务所能匹敌的。阅读全文

posted @ 2015-06-01 21:26 王安琪阅读(6567) 评论(7) 推荐(4)

关于Solr搜索标点与符号的中文分词你必须知道的（mmseg源码改造）

摘要：在中文搜索中的标点、符号往往也是有语义的，比如我们要搜索“C++”或是“C#”，我们不希望搜索出来的全是“C”吧？那样对程序员来说是个噩梦。然而在中文分词工具mmseg中，它的中文分词是将标点与符号均去除的，它认为对于中文来讲标点符号无意义，这明显不能满足我们的需求。那么怎样改造它让它符合我们的要求呢？本文就是针对这一问题的详细解决办法，我们改mmseg的源代码。阅读全文

posted @ 2015-05-14 00:00 王安琪阅读(3801) 评论(0) 推荐(4)

让memcached和mysql更好的工作

摘要：这次是Fotolog的经验，传说中比Flickr更大的网站，Fotolog在21台服务器上部署了51个memcached实例，总计有254G缓存空间可用，缓存了多达175G的内容，这个数量比很多网站的数据库都要大的多，原文是A Bunch of Great Strategies for Using ... 阅读全文

posted @ 2015-05-08 17:33 王安琪阅读(365) 评论(0) 推荐(0)

（转）理解OAuth 2.0

摘要：转自：http://www.ruanyifeng.com/blog/2014/05/oauth_2_0.htmlOAuth是一个关于授权（authorization）的开放网络标准，在全世界得到广泛应用，目前的版本是2.0版。本文对OAuth 2.0的设计思路和运行流程，做一个简明通俗的解释，主要参... 阅读全文

posted @ 2015-05-08 10:11 王安琪阅读(232) 评论(0) 推荐(0)

（转）solr排序OOM解决方法

摘要：转自http://topcat.iteye.com/blog/1293650问题lucene使用排序时会将被排序字段全部加入内存再进行排序，当多次使用不同字段进行排序时会造成OOM问题解决方案修改lucene源码在每次查询完成后将排序所使用的FieldCache里的缓存清空分别需要修改两个工程luc... 阅读全文

posted @ 2015-05-07 16:49 王安琪阅读(691) 评论(0) 推荐(0)

（转）MySQL数据库引擎ISAM MyISAM HEAP InnoDB的区别

摘要：转自：http://blog.csdn.net/nightelve/article/details/16895917 MySQL数据库引擎取决于MySQL在安装的时候是如何被编译的。要添加一个新的引擎，就必须重新编译MYSQL。在缺省情况下，MYSQL支持三个引擎：ISAM、MYISAM和HEAP... 阅读全文

posted @ 2015-05-07 16:27 王安琪阅读(297) 评论(1) 推荐(0)

（转） mysql数据库引擎：MyISAM和InnoDB(性能优化)

摘要：转自http://yuwensan126.iteye.com/blog/1138022Mysql 数据库中，最常用的两种引擎是innordb和myisam。Innordb的功能要比myiasm强大很多，但是innordb的性能要比myisam差很多，如果你的网站只是做简单的查询，更新，删除，那么用m... 阅读全文

posted @ 2015-05-07 15:30 王安琪阅读(356) 评论(0) 推荐(0)

（转）innodb 与 myisam 读写性能分析

摘要：前提： mysql在5.0之前，读写性能相差很大，读性能：myisam 很强mysql在5.0之后，差距不是很大http://passover.blog.51cto.com/2431658/507265http://blog.csdn.net/cchaha/article/details/17827... 阅读全文

posted @ 2015-05-07 15:16 王安琪阅读(3808) 评论(2) 推荐(0)

王安琪

事竞成

随笔分类 - 系统架构

公告