随笔分类 - 云技术
hadoop,zookeeper,kafka
摘要:http://www.zlovezl.cn/articles/40/简介: Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。具体简介可以参照这...
阅读全文
摘要:http://www.infoq.com/cn/articles/apache-kafka?utm_source=infoq&utm_medium=popular_links_homepage简介Apache Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apach...
阅读全文
摘要:http://blog.csdn.net/shenlan211314/article/details/61870351)使用ls命令来查看当前ZooKeeper中所包含的内容:[zk: 10.77.20.23:2181(CONNECTED) 1] ls /[zookeeper]2)创建一个新的zno...
阅读全文
摘要:http://kazoo.readthedocs.org/en/latest/basic_usage.htmlBasic UsageConnection HandlingTo begin using Kazoo, aKazooClientobject must be created and a co...
阅读全文
摘要:doc:http://kazoo.readthedocs.org/en/latest/basic_usage.htmleg:from kazoo.client import KazooClientzk = KazooClient()zk.start()#!/bin/env python#Zookee...
阅读全文
摘要:http://hi.baidu.com/eldersun/item/b9266e019da769f0f45ba6a4python下连接zookeeper使用最多的是python 包装的zookeeper 的c客户端,但是使用c客户端来访问zookeeper不是很方便,特别是如果你有代码洁癖,肯定不能...
阅读全文
摘要:1、概述Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,例如:采用shell脚本语言中的一些命令作为mapper和reducer(cat作为mapper,wc作为reducer)$HADOOP_HOME/bi...
阅读全文
摘要:转自:使用Python实现Hadoop MapReduce程序英文原文:Writing an Hadoop MapReduce Program in Python根据上面两篇文章,下面是我在自己的ubuntu上的运行过程。文字基本采用博文使用Python实现Hadoop MapReduce程序, 打...
阅读全文
摘要:http://agapple.iteye.com/blog/1111377zookeeper学习记录博客分类:distributed背景 前段时间看了S4流计算引擎,里面使用到了zookeeper进行集群管理,所以也就花了点时间研究了下zookeeper,不求看懂所有源码,但求了解其实现机制和原理,...
阅读全文
摘要:http://www.csdn.net/article/2014-06-05/2820089摘要:MapReduce在实时查询和迭代计算上仍有较大的不足,目前,Spark由于其可伸缩、基于内存计算等特点,且可以直接读写Hadoop上任何格式的数据,逐渐成为大数据处理的新宠,腾讯分享了Spark的原理...
阅读全文
摘要:http://www.kuqin.com/database/20120715/322528.htmlHadoop这个单词如今铺天盖地,几乎成了大数据的代名词。仅仅数年时间,Hadoop从边缘技术迅速成长为一个事实标准。如今想玩转大数据,搞企业分析或者商业智能,没有Hadoop还真不行。但Hadoop狂热的背后却酝酿着一场技术变革,Hadoop的核心技术在Google那里已经过时,因为Hadoop并不擅长处理“快数据”。今天,Hadoop似乎已经毫无争议地成了企业大数据技术标准,看上去Hadoop将根植企业,其地位在未来十年似乎都不会动摇。但是GigaOM的专栏作家Mike Miller却发出了
阅读全文
摘要:http://blog.csdn.net/aladdina/article/details/4141177国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响。1.C4.5C4
阅读全文
摘要:http://www.open-open.com/news/view/a22597在互联网这个领域一直有这样的说法:“如果老二无法战胜老大,那么就把老大赖以生存的东西开源吧”。当年Yahoo!与Google还是处在强烈竞 争关系时候,招聘了Doug(Hadoop创始人),把Google老大赖以生存的DFS与Map-Reduce开源了,开始了Hadoop的童年时期。 差不多在2008年的时候,Hadoop才算逐渐成熟。从初创到现在,Hadoop经过了至少7年的积累,现在的Hadoop不仅是当年的老二Yahoo的专用产品了,从Hadoop长长的用户名单中, 可以看到Facebook、Linkedi
阅读全文
摘要:http://www.open-open.com/lib/view/open1386293551501.html一、介绍Mahout Mahout是Apache下的开源机器学习软件包,目前实现的机器学习算法主要包含有协同过滤/推荐引擎,聚类和分类三 个部分。Mahout从设计开始就旨在建立可扩展的机器学习软件包,用于处理大数据机器学习的问题,当你正在研究的数据量大到不能在一台机器上运行时,就 可以选择使用Mahout,让你的数据在Hadoop集群的进行分析。Mahout某些部分的实现直接创建在Hadoop之上,这就使得其具有进行大数据 处理的能力,也是Mahout最大的优势所在。相比较于Wek
阅读全文
摘要:Kafka 分布式环境搭建转:http://www.open-open.com/lib/view/open1354349590601.html这篇文章将介绍如何搭建kafka环境,我们会从单机版开始,然后逐渐往分布式扩展。单机版的搭建官网上就有,比较容易实现,这里我就简单介绍下即可,而分布式的搭建官网却没有描述,我们最终的目的还是用分布式来解决问题,所以这部分会是重点。Kafka的中文文档并不多,所以我们尽量详细点儿写。要交会你搭建分布式其实很简单,手把手的教程大不了我录个视频就好了,可我觉得那不是走这条路的方 式。只有真正了解原理,并且理解的透彻了才能最大限度的发挥一个框架的作用。所以,如果
阅读全文