王安琪

摘要： “万事皆项目”，这是为我们做PMP培训的姚老师当时说过的一句话，小到一个人在家里烧条鱼，大到国家举办奥运会，都可以以项目对待。做事要有章法，要有目标，事才能竟成。项目大小不同，对待方式也要不同。小事如烧鱼，时间管理、采购管理、质量管理、成本管理等可由你一人把握，虽说你在烧鱼时可能不曾想到这些管理，但它们却是真实存在的。要做一件多人参与的事，如装修房屋，必然要做好与相关人的沟通、采购好需要的资源、规划好做事的步骤等等，可能一位有能力的好领导也能将这些事情管理地井井有条。然而，要做凝聚数十数百甚至更多人智慧的大事，若是还没有这些先进的管理理论做支撑，那就很难做到人尽其才、物尽其用，那么离分崩离析也怕是不远了。阅读全文

posted @ 2016-01-03 23:25 王安琪阅读(2753) 评论(10) 推荐(1)

[置顶] HBase 高性能获取数据(多线程批量式解决办法) + MySQL和HBase性能测试比较

摘要：在前篇博客里已经讲述了通过一个自定义 HBase Filter来获取数据的办法，在末尾指出此办法的性能是不能满足应用要求的，很显然对于如此成熟的HBase来说，高性能获取数据应该不是问题。下面首先简单介绍了搜索引擎的性能，然后详细说明了HBase与MySQL的性能对比，这里的数据都是经过实际的测试获得的。最后，给出了采用多线程批量从HBase中取数据的方案，此方案经过测试要比通过自定义Filter的方式性能高出很多。阅读全文

posted @ 2015-01-23 22:33 王安琪阅读(28616) 评论(5) 推荐(3)

[置顶] 关于Solr的使用总结的心得体会

摘要：本篇是本人对Solr的使用进行的总结，具体包括使用DataImportHandler从数据库中近实时同步数据、测试Solr创建索引的性能、以及测试Solr的搜索效率等。具体的搜索引擎概念、Solr搭建方法、数据库mysql使用方法，假设读者已有了基础。阅读全文

posted @ 2014-05-21 21:20 王安琪阅读(18019) 评论(21) 推荐(6)

2016年2月2日

大数据挖掘: FPGrowth初识--进行商品关联规则挖掘

摘要：关联规则的目的就是在一个数据集中找出项与项之间的关系，适用于在大数量的项集中发现关联共现的项。也被称为购物篮分析 (Market Basket analysis)，因为“购物篮分析”很贴切的表达了适用该算法情景中的一个子集。购物网站里你买了一个商品，旁边列出一系列买过该商品的人还买的其他商品，并且按置信度高低排序，一般会发现买手机的还会买充电器（买充电器的人不一定会买手机），买牙刷的还会买牙膏，这大概就是关联规则的用处。关联规则挖掘算法不只是能用在商品销售，使用它我们可以挖掘出更多的关联关系。阅读全文

posted @ 2016-02-02 10:55 王安琪阅读(4949) 评论(0) 推荐(4)

2015年12月17日

使用Hive或Impala执行SQL语句，对存储在HBase中的数据操作

摘要： Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。 HBase（Hadoop Database），是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，只能通过Rowkey来取数据，无法进行SQL查询。因此如果Hive可以从HBase中取数据，并结合Hive的SQL查询功能，便能做到较为复杂的SQL查询操作。 Impala对存储在HDFS、HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台，Impala也使用相同的元数据，SQL语法（Hive SQL），ODBC驱动程序和用户界面（Hue Beeswax）。Impala还提供了一个熟悉的面向批量或实时查询和统一平台。达成目标：1、支持HBase多表联接查询等较复杂的SQL查询操作。阅读全文

posted @ 2015-12-17 10:46 王安琪阅读(4152) 评论(0) 推荐(3)

2015年12月8日

使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟

摘要：本文先简单介绍了Sqoop和Hive\HBase，然后详细说明了Sqoop的使用方法，最后对当前大数据领域实践提出了自己的一些看法。阅读全文

posted @ 2015-12-08 09:52 王安琪阅读(34472) 评论(7) 推荐(6)

2015年11月24日

朝花夕拾之--大数据平台CDH集群离线搭建

摘要：管理、部署Hadoop集群需要工具，Cloudera Manager便是其一。本文先是简要对比了当前的类似工具，而后详细记录了以离线方式部署CDH集群的步骤。最后对“讲究”一词提出了自己的观点。阅读全文

posted @ 2015-11-24 09:06 王安琪阅读(4370) 评论(2) 推荐(3)

2015年11月3日

使用Hive或Impala执行SQL语句，对存储在Elasticsearch中的数据操作(二)

摘要： CSSDesk 使用Hive或Impala执行SQL语句，对存储在Elasticsearch中的数据操作使用Hive或Impala执行SQL语句，对存储在Elasticsearch中的数据操作Hive Impala Elasticsearch Hadoop SQL使用Hive或... 阅读全文

posted @ 2015-11-03 22:01 王安琪阅读(2894) 评论(0) 推荐(0)

使用Hive或Impala执行SQL语句，对存储在Elasticsearch中的数据操作

摘要：我们的目标是：1. 支持Elasticsearch多表联接查询；2. 结合Elasticsearch搜索引擎提高SQL查询效率。Elasticsearch for Apache Hadoop能帮助我们实现这一目标吗？让我们拭目以待! 阅读全文

posted @ 2015-11-03 21:36 王安琪阅读(9296) 评论(6) 推荐(3)

2015年10月22日

A record--Offline deployment of Big Data Platform CDH Cluster

摘要： Deployment and Management of Hadoop clusters need tools, such as Cloudera Manager. In this article, I compare the tools briefly, and then record the step of deploying CDH cluster offline in detail. Finally, I expound the theory of 'handle delicately'. 阅读全文

posted @ 2015-10-22 21:56 王安琪阅读(1002) 评论(0) 推荐(3)

2015年10月7日

我的ElasticSearch集群部署总结--大数据搜索引擎你不得不知

摘要：摘要：世上有三类书籍：1、介绍知识，2、阐述理论，3、工具书；世间也存在两类知识：1、技术，2、思想。以下是我在部署ElasticSearch集群时的经验总结，它们大体属于第一类知识“techknowledge(技术)”。但其中也穿插一些我个人的理解。敬请指正。关键词：ElasticSearch, 搜索引擎, 集群, 大数据, Solr, 大数据阅读全文

posted @ 2015-10-07 22:26 王安琪阅读(9907) 评论(7) 推荐(6)

2015年9月1日

关于单元测试及项目质量管理的总结

摘要：如果没写单元测试，如若在branch中对之前代码重构的话，则没有移回trunck上的勇气，有了单元测试，全部运行通过后则有信心合并。互联网公司更是需要重视单元测试，因为版本迭代比较迅速。因此一个好的单元测试框架及一个好的项目质量管理非常重要。本文即是我对这些的心得体会。阅读全文

posted @ 2015-09-01 17:08 王安琪阅读(1900) 评论(8) 推荐(2)

事竞成

公告