云技术 - 随笔分类 - Django's blog

在python中使用zookeeper管理你的应用集群

摘要：http://www.zlovezl.cn/articles/40/简介： Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目，它主要是用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。具体简介可以参照这... 阅读全文

posted @ 2014-06-25 17:44 Django's blog 阅读(6934) 评论(0) 推荐(1)

Apache Kafka：下一代分布式消息系统

摘要：http://www.infoq.com/cn/articles/apache-kafka?utm_source=infoq&utm_medium=popular_links_homepage简介Apache Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发，之后成为Apach... 阅读全文

posted @ 2014-06-25 12:57 Django's blog 阅读(911) 评论(0) 推荐(0)

ZooKeeper系列之八：ZooKeeper的简单操作

摘要：http://blog.csdn.net/shenlan211314/article/details/61870351）使用ls命令来查看当前ZooKeeper中所包含的内容：[zk: 10.77.20.23:2181(CONNECTED) 1] ls /[zookeeper]2）创建一个新的zno... 阅读全文

posted @ 2014-06-23 15:13 Django's blog 阅读(521) 评论(0) 推荐(0)

zookeeper kazoo Basic Usage

摘要：http://kazoo.readthedocs.org/en/latest/basic_usage.htmlBasic UsageConnection HandlingTo begin using Kazoo, aKazooClientobject must be created and a co... 阅读全文

posted @ 2014-06-23 10:35 Django's blog 阅读(1691) 评论(0) 推荐(0)

Python connect zookeeper use the kazoo module

摘要：doc:http://kazoo.readthedocs.org/en/latest/basic_usage.htmleg:from kazoo.client import KazooClientzk = KazooClient()zk.start()#!/bin/env python#Zookee... 阅读全文

posted @ 2014-06-23 10:26 Django's blog 阅读(823) 评论(0) 推荐(0)

python中使用kazoo连接zookeeper（一）

摘要：http://hi.baidu.com/eldersun/item/b9266e019da769f0f45ba6a4python下连接zookeeper使用最多的是python 包装的zookeeper 的c客户端，但是使用c客户端来访问zookeeper不是很方便，特别是如果你有代码洁癖，肯定不能... 阅读全文

posted @ 2014-06-23 10:23 Django's blog 阅读(4672) 评论(0) 推荐(0)

Hadoop Streaming 编程

摘要：1、概述Hadoop Streaming是Hadoop提供的一个编程工具，它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer，例如：采用shell脚本语言中的一些命令作为mapper和reducer（cat作为mapper，wc作为reducer）$HADOOP_HOME/bi... 阅读全文

posted @ 2014-06-15 16:38 Django's blog 阅读(447) 评论(0) 推荐(0)

使用Python实现Hadoop MapReduce程序

摘要：转自：使用Python实现Hadoop MapReduce程序英文原文：Writing an Hadoop MapReduce Program in Python根据上面两篇文章，下面是我在自己的ubuntu上的运行过程。文字基本采用博文使用Python实现Hadoop MapReduce程序，打... 阅读全文

posted @ 2014-06-15 16:35 Django's blog 阅读(1028) 评论(0) 推荐(0)

zookeeper学习记录

摘要：http://agapple.iteye.com/blog/1111377zookeeper学习记录博客分类：distributed背景前段时间看了S4流计算引擎，里面使用到了zookeeper进行集群管理，所以也就花了点时间研究了下zookeeper，不求看懂所有源码，但求了解其实现机制和原理，... 阅读全文

posted @ 2014-06-10 14:32 Django's blog 阅读(552) 评论(0) 推荐(0)

大数据计算新贵Spark在腾讯雅虎优酷成功应用解析

摘要：http://www.csdn.net/article/2014-06-05/2820089摘要：MapReduce在实时查询和迭代计算上仍有较大的不足，目前，Spark由于其可伸缩、基于内存计算等特点，且可以直接读写Hadoop上任何格式的数据，逐渐成为大数据处理的新宠，腾讯分享了Spark的原理... 阅读全文

posted @ 2014-06-05 16:05 Django's blog 阅读(419) 评论(0) 推荐(0)

Hadoop将过时了？

摘要：http://www.kuqin.com/database/20120715/322528.htmlHadoop这个单词如今铺天盖地，几乎成了大数据的代名词。仅仅数年时间，Hadoop从边缘技术迅速成长为一个事实标准。如今想玩转大数据，搞企业分析或者商业智能，没有Hadoop还真不行。但Hadoop狂热的背后却酝酿着一场技术变革，Hadoop的核心技术在Google那里已经过时，因为Hadoop并不擅长处理“快数据”。今天，Hadoop似乎已经毫无争议地成了企业大数据技术标准，看上去Hadoop将根植企业，其地位在未来十年似乎都不会动摇。但是GigaOM的专栏作家Mike Miller却发出了阅读全文

posted @ 2014-01-27 18:11 Django's blog 阅读(742) 评论(0) 推荐(0)

数据挖掘10大算法介绍

摘要：http://blog.csdn.net/aladdina/article/details/4141177国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法：C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.不仅仅是选中的十大算法，其实参加评选的18种算法，实际上随便拿出一种来都可以称得上是经典算法，它们在数据挖掘领域都产生了极为深远的影响。1.C4.5C4 阅读全文

posted @ 2014-01-24 13:27 Django's blog 阅读(479) 评论(0) 推荐(0)

大象的崛起！Hadoop七年发展风雨录

摘要：http://www.open-open.com/news/view/a22597在互联网这个领域一直有这样的说法：“如果老二无法战胜老大，那么就把老大赖以生存的东西开源吧”。当年Yahoo!与Google还是处在强烈竞争关系时候，招聘了Doug(Hadoop创始人)，把Google老大赖以生存的DFS与Map-Reduce开源了，开始了Hadoop的童年时期。差不多在2008年的时候，Hadoop才算逐渐成熟。从初创到现在，Hadoop经过了至少7年的积累，现在的Hadoop不仅是当年的老二Yahoo的专用产品了，从Hadoop长长的用户名单中，可以看到Facebook、Linkedi 阅读全文

posted @ 2014-01-17 22:01 Django's blog 阅读(607) 评论(0) 推荐(0)

利用Mahout实现在Hadoop上运行K-Means算法

摘要：http://www.open-open.com/lib/view/open1386293551501.html一、介绍Mahout Mahout是Apache下的开源机器学习软件包，目前实现的机器学习算法主要包含有协同过滤/推荐引擎，聚类和分类三个部分。Mahout从设计开始就旨在建立可扩展的机器学习软件包，用于处理大数据机器学习的问题，当你正在研究的数据量大到不能在一台机器上运行时，就可以选择使用Mahout，让你的数据在Hadoop集群的进行分析。Mahout某些部分的实现直接创建在Hadoop之上，这就使得其具有进行大数据处理的能力，也是Mahout最大的优势所在。相比较于Wek 阅读全文

posted @ 2014-01-17 21:56 Django's blog 阅读(634) 评论(0) 推荐(0)

Kafka 分布式环境搭建

摘要：Kafka 分布式环境搭建转：http://www.open-open.com/lib/view/open1354349590601.html这篇文章将介绍如何搭建kafka环境，我们会从单机版开始，然后逐渐往分布式扩展。单机版的搭建官网上就有，比较容易实现，这里我就简单介绍下即可，而分布式的搭建官网却没有描述，我们最终的目的还是用分布式来解决问题，所以这部分会是重点。Kafka的中文文档并不多，所以我们尽量详细点儿写。要交会你搭建分布式其实很简单，手把手的教程大不了我录个视频就好了，可我觉得那不是走这条路的方式。只有真正了解原理，并且理解的透彻了才能最大限度的发挥一个框架的作用。所以，如果阅读全文

posted @ 2014-01-15 18:32 Django's blog 阅读(1817) 评论(0) 推荐(1)

Django's blog

随笔分类 - 云技术

公告