04 2014 档案

python url解析
摘要:>>> url="http://localhost/test.py?a=hello&b=world " >>> result=urlparse.urlparse(url) >>> result ParseResult(scheme='http', netloc=... 阅读全文

posted @ 2014-04-29 15:19 雨渐渐 阅读(337) 评论(0) 推荐(0) 编辑

致命错误: Python.h:没有那个文件或目录
摘要:In file included from greenlet.c:5:0:greenlet.h:8:20: 致命错误: Python.h:没有那个文件或目录编译中断。error: Setup script exited with error: command 'gcc' failed with ex... 阅读全文

posted @ 2014-04-28 17:23 雨渐渐 阅读(2036) 评论(0) 推荐(0) 编辑

Hbase热点问题
摘要:需求描述:扫描(查询)某个区间---》列用hbase多节点的资源,分布式扫描,加快速度==》 然后拼接到一起 如何打散数据 冠字号逆序,hash并不一定数据连续就会造成热点,这个是由数据访问模式决定的。ex:时间作为rowkey,但查询经常按一个时间段来查询=====》 时间作为rowke... 阅读全文

posted @ 2014-04-28 15:38 雨渐渐 阅读(5223) 评论(0) 推荐(0) 编辑

OpenTSDB案例总结
摘要:加宽行可增加扫描速度采用组合rowkey,利用数据本地性加快扫描少数宽行,并不比多数窄行节省空间 缩短Column family 和 column的名字 合并若干列。 阅读全文

posted @ 2014-04-28 14:04 雨渐渐 阅读(502) 评论(0) 推荐(0) 编辑

Hbase案例分析(二)
摘要:情景1:如英文所示, 这个最基本的优势是可以根据时间范围进行扫描。但不满足我们的需求,我们要统计某一个metric(指标)在某时间范围的数据。情景2:情景2注释:将指标名称放到时间戳前面,这样会相同metric的数据会在一块,实现了一定的数据本地性,加快了扫描速度。但依然不满足需求:因为每个key在... 阅读全文

posted @ 2014-04-28 14:00 雨渐渐 阅读(188) 评论(0) 推荐(0) 编辑

Hbase案例分析(一)
摘要:Hbase应用场景:1 随机读或者写2 大数据上的高并发操作,比如每秒对PB级数据进行上千次操作。(查询,删除等操作)3 读写均是非常简单的操作,比如没有join操作Hbase Schema设计rowkey是设计关键OpenTSDB:基于Hbase构建分布式,可伸缩的时间序列数据库。 名词解释:时... 阅读全文

posted @ 2014-04-28 13:11 雨渐渐 阅读(712) 评论(0) 推荐(0) 编辑

几何概率
摘要: 阅读全文

posted @ 2014-04-28 09:17 雨渐渐 阅读(168) 评论(0) 推荐(0) 编辑

相互独立和互不相融 互拆 对立
摘要: 阅读全文

posted @ 2014-04-25 14:50 雨渐渐 阅读(343) 评论(0) 推荐(0) 编辑

经济学数据
摘要:http://f.dataguru.cn/thread-268249-1-1.html1.经济学家的网上资源 http://netec.wustl.edu/EconFAQ/EconFAQ.html 提供的网上资源. 2.经济学网上接入服务 http://ideas.uqam.ca/ 提供经济学研究方... 阅读全文

posted @ 2014-04-24 14:53 雨渐渐 阅读(256) 评论(0) 推荐(0) 编辑

论人类思考时的贝叶斯过程
摘要:http://fmajor.lamost.org/blog/?p=1177清晨,闹铃声在耳边想起,你闭着眼睛,双手顺着声音胡乱的在摸索,终于找到了手机,按下了上面唯一的一个实体键——让我们再睡十分钟吧。经过了若干 次这样的拉锯战以后,你终于决定起床,揉了揉眼睛,看了看表,马上就完全清醒了,因为你发现... 阅读全文

posted @ 2014-04-24 14:40 雨渐渐 阅读(1260) 评论(0) 推荐(0) 编辑

Thrift 使用方法
摘要: 阅读全文

posted @ 2014-04-24 11:10 雨渐渐 阅读(139) 评论(0) 推荐(0) 编辑

Hbase Java API程序设计步骤
摘要:http://www.it165.net/admin/html/201407/3390.html步骤1:创建一个Configuration对象 包含了客户端链接Hbase服务所需的全部信息: zookeeper位置(我们只有链接到zookeeper才能与hbase通信,master仅负责负... 阅读全文

posted @ 2014-04-24 11:05 雨渐渐 阅读(801) 评论(0) 推荐(0) 编辑

乘法公式,全概率公式,贝叶斯公式_先验概率_后验概率_独立性假设
摘要:乘法公式 是求’几个事件同时‘发生的概率全概率 是求最后结果的概率贝叶斯公式是已知’最后结果‘, 求’某个事件‘的概率先验概率和后验概率P(Bj|A) 是在事件A (比方已经生产出一个合格品,)的条件下,某个事件Bj(早晨之前调整好了机器)发生的概率,称为 ”后验概率“Bayes公式又称为’后验概率... 阅读全文

posted @ 2014-04-23 14:32 雨渐渐 阅读(1312) 评论(0) 推荐(0) 编辑

获得了知识(条件)后的概率称为后验概率 对先验概率的个性化调整
摘要:有了后验概率我们就能对机器的情况有进一步的了解。如果某天的第一件产品是合格的,那可能今天早晨调整好的概率高。机器故障低如果某天的后验概率低,则发生某种’故障‘的概率就会比较大。然后每生产一件。。。就会计算出一个后验概率,这样 就可以预测机器故障了。是否需要检查机器。下面垃圾邮件过滤中,修改的先验概... 阅读全文

posted @ 2014-04-23 13:38 雨渐渐 阅读(361) 评论(0) 推荐(0) 编辑

贝叶斯公式 的几何解释
摘要:注解:这种简化版本的全概率和贝叶斯定律,其实用的时候很多哦 阅读全文

posted @ 2014-04-23 13:18 雨渐渐 阅读(291) 评论(0) 推荐(0) 编辑

python ^M 产生的原因 及 lxml 如何获取text的原因
摘要:其实跟踪一下会发现,^M 是由于 /r/n 所造成的。article = dom_c.xpath('//td[@id="article_content"]//text()')content = os.linesep.join(article) 阅读全文

posted @ 2014-04-22 17:24 雨渐渐 阅读(489) 评论(0) 推荐(0) 编辑

全概率公式的几何意义
摘要: 阅读全文

posted @ 2014-04-22 16:17 雨渐渐 阅读(339) 评论(0) 推荐(0) 编辑

Hbase对hive的支持没有hdfs的好的原因 及hbase什么时候使用 及rowkey设计技巧
摘要:hive-=mareduce 的 split 在 hbase就是 region了,,,,,,,访问region必须通过hregionserver 会造成regionser负担过大,另外 region有可能很大,并发度不高。1 需要大量随即读写的时候,hbdfs不支持随即读写哦。2 大数据上高并法操作... 阅读全文

posted @ 2014-04-22 10:55 雨渐渐 阅读(317) 评论(0) 推荐(0) 编辑

hbase 架构
摘要:由图可以client并不直接和master交互,而是与zookeeper交互,所以master挂掉,依然会对外提供读写服务, 但master挂掉后无法提供数据迁移服务。所以说 hbase无单点故障,因为master迁移功能影响不大,hregionserer挂掉,数据会被迁移。但迁移需要时间,这可能影... 阅读全文

posted @ 2014-04-22 10:46 雨渐渐 阅读(174) 评论(0) 推荐(0) 编辑

scala 安装
摘要:http://www.scala-lang.org/download/install.htmlhttp://zh.scala-tour.com/#/hello-wolrd scala指南To run Scala from the command-line, simply download the b... 阅读全文

posted @ 2014-04-21 18:00 雨渐渐 阅读(257) 评论(0) 推荐(0) 编辑

条件概率的几何解释 由定义计算条件概率 由条件概率公式计算条件概率
摘要:A发生,则去掉圈A以外的区域,形成新的样本空间 (如果是概率质量函数,则称为归一化)然后在A发生的前提下,B的概率为 圈A与圈B的公共区域/圈A 这就是条件概率的几何解释~~~甲乙两人各抛一个骰子,点数大的赢。如果甲先抛骰子,得到点数4,那么乙获胜的概率是多少?A={甲抛出4点} B = {乙获... 阅读全文

posted @ 2014-04-21 15:28 雨渐渐 阅读(1171) 评论(0) 推荐(0) 编辑

Hbase 学习笔记(一) Hbase的物理模型 Hbase为每个值维护了一个多级索引,即<key, column family, column name, timestamp>
摘要:比如第一个region 代表 0-100 第二个region 代表 101 -200的分的越多越不好管理,但同时方便了并行化处理,并发度越高,处理的越快。mapreduce就是按照rowkey的范围进行切分,这一点跟hdfs不一样。由于不同的同一个表的不同region有可能在不同的节点机器上... 阅读全文

posted @ 2014-04-21 10:33 雨渐渐 阅读(312) 评论(0) 推荐(0) 编辑

hadoop 各种counter 解读
摘要:http://blog.sina.com.cn/s/blog_61ef49250100uxwh.html经过了两天的休息与放松,精神饱满了吧?上星期我们学习了MapReduce的过程,了解了其基本过程,学会了如何在Ubuntu上搭建Hadoop环境,并测试了实例。今天我们来学些辅助性的东西,不然在测... 阅读全文

posted @ 2014-04-17 10:11 雨渐渐 阅读(1893) 评论(0) 推荐(0) 编辑

python 文件及文件夹操作
摘要:python 文件、目录操作(新增、移动、删除等)python 文件夹与文件操作mport string, os, sysdir = '/var'print '----------- no sub dir'files = os.listdir(dir)for f in files: print... 阅读全文

posted @ 2014-04-14 16:47 雨渐渐 阅读(394) 评论(0) 推荐(0) 编辑

hadoop 学习笔记 (十) mapreduce2.0
摘要:MapReduce的特色---不擅长的方面》实时计算 像mysql一样,在毫秒级或者秒级内返回结果》流式计算 Mapreduce的输入数据时静态的,不能动态变化 MapReduce自身的设计特点决定了数据源必须是静态的。》DAG计算 多个应用程序存在依赖关系,后一个应用程序的... 阅读全文

posted @ 2014-04-14 09:13 雨渐渐 阅读(164) 评论(0) 推荐(0) 编辑

matplotlib 绘图
摘要:http://blog.csdn.net/jkhere/article/details/9324823 都打一遍5 matplotlib-绘制精美的图表matplotlib 是python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地进行制图。而且也可以方便地将它作为绘图控件,嵌入GUI应用程序中。它的文档相当完备,并且 Gallery页面 中有上百幅缩略图,打开之后都有源程序。因此如果你需要绘制某种类型的图,只需要在这个页面中浏览/复制/粘贴一下,基本上都能搞定。本章节作为matplotlib的入门介绍,将较为深入地挖掘几个例子,从中理解和学习matplotl 阅读全文

posted @ 2014-04-09 14:48 雨渐渐 阅读(901) 评论(0) 推荐(0) 编辑

python 文档
摘要:python 文档 https://docs.python.org/2/library/index.html 阅读全文

posted @ 2014-04-03 17:13 雨渐渐 阅读(261) 评论(0) 推荐(0) 编辑

分布式执行脚本
摘要:这东西能用于分布式部署东东么??bin/hadoop jar share/hadoop/yarn/hadoop-yarn-applications-distributedshell-2.2.0.jar org.apache.hadoop.yarn.applications.distributedshell.Client --jar share/hadoop/yarn/hadoop-yarn-applications-distributedshell-2.2.0.jar --shell_command ls --shell_args /tmp --num_containers 3 --conta 阅读全文

posted @ 2014-04-03 14:20 雨渐渐 阅读(310) 评论(0) 推荐(0) 编辑

Yarn应用程序编程实例
摘要:Yarn自带的Application示例程序:DistributedShell 和 UnManaged AM1 DistributedShell ,故名思意,是一个分布式运行shell命令的应用程序,它可以并行执行用户提供的shell命令或者shell脚本2 unManaged AM 演示了如何将ApplicationMaster运行在客户端,而不是由RM启动和管理。 阅读全文

posted @ 2014-04-03 11:16 雨渐渐 阅读(842) 评论(0) 推荐(0) 编辑

切切切切切切切
摘要:10.0分阅读Distributedshell实例的Client和ApplicationMaster代码实现,回答以下问题:(1)在Client代码实现中,Client将应用程序提交到ResourceManager之前,将ApplicationMaster的jar包上传到了什么地方?HDFS(2)在ApplicationMaster代码实现中,如果一个task运行失败了,ApplicationMaster是怎么做的? 重新向Resourcemanager不断申请资源,直到资源足够,再与NodeManager通信,NodeManager会启动一个Container来重新运行task310.... 阅读全文

posted @ 2014-04-03 09:38 雨渐渐 阅读(262) 评论(0) 推荐(0) 编辑

关于如何设置reduce的个数
摘要:在默认情况下,一个MapReduce Job如果不设置Reducer的个数,那么Reducer的个数为1。具体,可以通过JobConf.setNumReduceTasks(int numOfReduceTasks)方法来设置Reducer的个数。那么,如何确定Reducer的个数呢,Hadoop documentation 推荐了两个计算公式: 0.95 * NUMBER_OF_NODES * mapred.tasktracker.reduce.tasks.maximum 1.75 * NUMBER_OF_NODES * mapred.tasktracker.reduce.tas... 阅读全文

posted @ 2014-04-02 18:16 雨渐渐 阅读(2431) 评论(0) 推荐(0) 编辑

hadoop Yarn 编程API
摘要:客户端编程库:所在jar包: org.apache.hadoop.yarn.client.YarnClient使用方法:1 定义一个YarnClient实例: private YarnClient client;2 构造一个Yarn客户端句柄并初始化 this.client = YarnClient.createYarnClient(); client.ini(conf)3 启动Yarn yarnClient.start()4 获取一个新的application id YarnClientApplication app=yarnClient.createApplication(... 阅读全文

posted @ 2014-04-02 17:04 雨渐渐 阅读(13605) 评论(1) 推荐(0) 编辑

YARN应用程序开发流程(类似于MapReduce On Yarn)本内容版权归(小象学院所有)
摘要:MapReduce On Yarn和MapReduce程序区别MapReduce On Yarn(由专业人员开发)1 为MapReduce作业运行在YARN上提供一个通用的运行时环境2 需要与Yarn的各个服务交互(包括ResourceManager,NodeManager),完成较为复杂的功能(比方资源申请,跟对应的NodeManager通信启动任务)3 由客户端和ApplicationMaster两部分组成。备注:通常不需要开发,因为MapRed Storm, Spark等都提供了已经写好了组件。但是如果有新的运行框架,需要运行在yarn上,则需要自己编写配套的组件了。对开发者要求:1 只 阅读全文

posted @ 2014-04-02 15:20 雨渐渐 阅读(1243) 评论(0) 推荐(0) 编辑

运行在YARN上的MapReduce应用程序(以MapReduce为例)
摘要:client作用:提交一个应用程序查看一个应用程序的运行状态(通过application master)第一步:提交MR程序到ResourceManager,ResourceManager为这个应用程序的ApplicationMaster申请资源,申请到资源后第二步:与资源对应的NodeManager通信,让其启动MR App Mstr,第三,四步:MR App Mstr启动起来后,跟RM交互,申请资源,比如拿到的资源在另一个节点第五,六步:MR App Mstr与资源对应的NodeManager通信来启动Task,Task是放在Container里的第七步:启动后的Tasks直接与MR Ap 阅读全文

posted @ 2014-04-02 15:01 雨渐渐 阅读(586) 评论(0) 推荐(0) 编辑

导航