摘要: mapreduce的过程介绍注意:下面的内容中RM=ResourceManager ,NM=NodeManagerstep 1: client -> RM这是提交job的流程,client端先向RM申请一个ApplicationId,RM进行内部处理包括资源分配,优先级设定之类的准备工作.等到ApplicationId后,client端提交程序到RM执行。 这个提交过程会指明localfile,jars ,输入,输出,环境变量等参数,实际上跟命令行bin/hadoop jar执行的东西一样.RM接收到提交后,根据资源(CPU,内存,硬盘,网络 ) 来进行调度.RM的调度流程是:RM不断接 阅读全文
posted @ 2013-09-29 15:02 nosqlcn 阅读(399) 评论(0) 推荐(0) 编辑
摘要: 在hadoop生态系统中,hadoop核心包括了hdfs以及mapreduce.hadoop的一些设计机制机架感知rack-aware使得master能够获取整个集群的基于网络ip地址或者主机名的分布图。通过一个脚本实现,脚本耦合少,参数只有网络ip地址或者主机名。相关配置项 topology.script.file.namehealth-checker健康检查的模块类似hadoop这种组件繁多的生态系统,精简耦合是必须的,这个检查模块做得真是很小巧,它只通过脚本的返回的结果中有没有ERROR这个字符串来判断健康状态。相关配置项 yarn.NM.health-checker 开头的都是slav 阅读全文
posted @ 2013-09-29 14:47 nosqlcn 阅读(842) 评论(0) 推荐(0) 编辑
摘要: 64位php4的openssl模块的代码是不能编译通过的。必须替换文件openssl.c为下面的内容:/* +----------------------------------------------------------------------+ | PHP Version 4 | +----------------------------------------------------------------------+ | Copyright (c) 199... 阅读全文
posted @ 2013-09-29 12:27 nosqlcn 阅读(900) 评论(0) 推荐(0) 编辑
摘要: 一般的php编译问题,都可以通过下载安装依赖库的dev包,或者下载源码的方式解决。但是odbc模块比较特殊。必须在每次configure成功之后,手动修改生成的Makefile文件。以unixODBC为列子,修改方式如下:找到以开头的行,在最后面添加:-lodbcpsql -lodbc 阅读全文
posted @ 2013-09-29 12:24 nosqlcn 阅读(326) 评论(0) 推荐(0) 编辑
摘要: 希望本文能对那些想把php带向更宽的边界的工程师有所帮助.一个php请求的完整流程: 浏览器用户--->web服务器(apache,nginx)--->Zend引擎从文件系统读取php代码文件--->Zend解释器工作 --->执行解释后的代码-->Zend引擎注册的函数接口-->内置模块或者各个需要的外部模块扩展-->数据库memcache等后端资源 其中 Zend引擎注册的函数接口:就是php开发者经常接触的各种php函数. 外部模块扩展:就是php编译的各个so文件(linux)或者dll文件(windwos). 执行解释后的代码:浏览器的内容就 阅读全文
posted @ 2013-07-29 17:45 nosqlcn 阅读(541) 评论(0) 推荐(0) 编辑
摘要: Cassandra是facebook自己使用的搜索平台.也是nosql领域里的带头大哥.优点是速度快,简单易用,可靠性高.我自己测试的几乎没有停摆过,不管数据查询有多密集,数据有多大,而且几乎可以当作memcached来使用.一个明显缺点是占用内存非常大,默认的配置是250m左右.其实这真不是人家的缺点.是我们买不起大内存的vps.我下一步打算放弃memcached转用Cassandra.这样就合算多了.其实也说不上是优化,nosql数据库的性能与内存是息息相关.适合一般的内存没有那么大的vps等.按照Cassandra0.74的默认配置 一共要250mb的内存,很恐怖的.现在修改一下配置文件 阅读全文
posted @ 2011-03-22 10:33 nosqlcn 阅读(624) 评论(0) 推荐(0) 编辑
摘要: phpbb的搜索功能是基于自己的分词表来搜索的.因为原本的系统中每一个汉字就是一个分割词造成体积非常的大.我自己用dphpbb论坛中的数据显示,负责分词的那个2个表里有上百万条数据.体积加起来是帖子表的十倍.搜索性能越来越差.下面是我自己用户nosql Cassandra0.74来取代搜索功能的方法:1 安装 Cassandra0.74 详细方法:2 下载SimpleCassie.0.7.1.6用于连接apache php与Cassandra0.74下载地址:你也可以到google code下载 不过那个似乎被~~墙~~~了3 写一个脚本用于将phpbb分词表的数据转移到Cassandra0. 阅读全文
posted @ 2011-03-20 15:53 nosqlcn 阅读(228) 评论(0) 推荐(0) 编辑
摘要: CouchDB开发语言:: Erlang主要优点: 数据一致性,易用许可: ApacheProtocol: HTTP/REST适用: 积累性的、较少改变的数据。或者是需要版本比较多的举例: CRM, CMS systems. 允许多站部署.Redis开发语言:: C/C++主要优点: 一个字 快许可: BSDProtocol: Telnet-like适用: 总数据集快速变化且总量可预测.内存需求较高举例: 股票价格、实时分析、实时数据收集、实时通信.MongoDB开发语言:: C++主要优点: 类似SQL. (查询, 索引)许可: AGPL (Drivers: Apache)Protocol: 阅读全文
posted @ 2011-03-18 14:10 nosqlcn 阅读(1362) 评论(0) 推荐(0) 编辑
摘要: 要下载gae上的数据你要做三个步骤:第一:修改app.yaml在你的程序的app.yaml文件加上一个url路由- url: /remote_apiscript: $PYTHON_LIB/google/appengine/ext/remote_api/handler.pylogin: admin注意放到起作用的地方,路由功能是由上而下匹配的.第二:生成bulkloader.yaml转换配置文件利用命令:appcfg.py create_bulkloader_config --filename=bulkloader.yaml --url=http://<你的程序ID>.appspot 阅读全文
posted @ 2010-07-02 11:56 nosqlcn 阅读(312) 评论(0) 推荐(0) 编辑