2014年1月8日

(转)Hadoop的安全机制研究

摘要: 1.背景1.1 共享Hadoop集群当前大一点的公司都采用了共享Hadoop集群的模式,这种模式可以减小维护成本,且避免数据过度冗余,增加硬件成本。共享Hadoop是指:(1)管理员把研发人员分成若干个队列,每个队列分配一定量的资源,每个用户或者用户组只能使用某个队列中得资源;(2)HDFS上存有各种数据,有公用的,有机密的,不同的用户可以访问不同的数据。共享集群类似于云计算或者云存储,面临的一个最大问题是安全。1.2 几个概念安全认证:确保某个用户是自己声称的那个用户。安全授权:确保某个用户只能做他允许的那些操作User:Hadoop用户,可以提交作业,查看自己作业状态,查看HDFS上的文件 阅读全文

posted @ 2014-01-08 13:22 sambazhu 阅读(458) 评论(0) 推荐(0) 编辑

如何理解Bounce Rate和Exit Rate

摘要: 先说说两者的定义:1)Bounce Rate:从某个特定的页面进入网站的Visit中,有多少百分比什么都没有做(没有点击任何链接),然后就离开了网站(即关闭了这个特定的页面)。例如,你从搜索引擎上搜索“BounceRate”和“Exit Rate”的结果页面中访问我的这篇文章,但显然这篇文章没有引起你的任何兴趣,因此你关闭了这篇文章的浏览器窗口,这对我的网站和对这个页面而言就是一个Bounce。而所有这种Bounce掉的Visit除以总的Visit就是Bounce Rate。2)Exit Rate:“出站率”。Exit Rate的意思是,对某一个特定的页面而言,从这个页面离开网站的Visit占 阅读全文

posted @ 2014-01-08 12:03 sambazhu 阅读(1511) 评论(0) 推荐(0) 编辑

淘宝数据魔方技术架构解析

摘要: 转自:http://www.alidata.org/archives/1789淘宝网拥有国内最具商业价值的海量数据。截至当前,每天有超过30亿的店铺、商品浏览记录,10亿在线商品数,上千万的成交、收藏和评价数据。如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝、商家进行企业的数据化运营,帮助消费者进行理性的购物决策,是淘宝数据平台与产品部的使命。为此,我们进行了一系列数据产品的研发,比如为大家所熟知的量子统计、数据魔方和淘宝指数等。尽管从业务层面来讲,数据产品的研发难度并不高;但在“海量”的限定下,数据产品的计算、存储和检索难度陡然上升。本文将以数据魔方为例,向大家介绍淘宝在海量数据产品技术 阅读全文

posted @ 2014-01-08 11:19 sambazhu 阅读(196) 评论(0) 推荐(0) 编辑

2014年1月7日

淘宝开源的SQL

摘要: nQuery 引擎是数据中间层为应对大数据场景的在线查询的三大难题:长数据、宽数据、杂数据,广泛参考 Big Query、Impala、 PL/SQL、MySQL 、PgSQL、ql.io 等,结合自身业务特点,自行精心设计、实现的一套类SQL 语言(nSQL)及解析、执行引擎,它有着广泛的应用场景与很强的实用价值,能对 *SQL 型数据库提供翻译与兼容,对K/V 数据如HBase、OTS 或其他通用的数据源,它可以作为一个简洁强大的SQL 查询引擎,并以扩展SQL 的创新方式来支持数据JOIN, 结合NodeJS 框架,完全可以提供统一的SQL接口的高并发、高性能的的在线查询服务,解耦前后端 阅读全文

posted @ 2014-01-07 15:26 sambazhu 阅读(438) 评论(0) 推荐(0) 编辑

hadoop2.0之Impala初体验二

摘要: 转自:http://labs.chinamobile.com/mblog/52251_204176但是也要注意哦,这个数据比起MPP数据库来说还是差,差得比Hive和Impala比较还要远,那是因为多表关联最考数据本地性(Locality)了,而MPP擅长这点(虽然这次测试中行列混合的两个查询分布键都不一样,而列数据库的SQL2分布键不一样,但仍然效果明显)。所以如果Impala不改变存储结构的话,还是很难和MPP比较性能。但是要注意哦,这是8个节点,如果100个节点以上,特别是有故障发生的情况下,Impala的灵活性和健壮性就可能好多了。接下来看看嵌套查询的时候Impala优化得如何,反正H 阅读全文

posted @ 2014-01-07 15:06 sambazhu 阅读(843) 评论(0) 推荐(0) 编辑

hadoop2.0之Impala初体验一

摘要: 转自:http://labs.chinamobile.com/mblog/52251_204175Impala,这个非洲的高角羚,被伟大的Cloudera公司赋予了新的含义。随着2013年5月1日的1.0版本发布,一个构建在HDFS上的非MR机制的SQL解析引擎正在慢慢成熟。Impala相比原来的Hive来说,在解析上有很大的突破,至少我在初体验的时候感觉到有如下几点:1、对SQL92更好的支持,而不是一部分子集。2、不用MapReduce来进行执行,而使用自己的SQL解析和分布式执行引擎,效率有所提升3、充分使用内存来提升效率,所以两次重复查询效果迥异。但是对于Cloudera公司在发布会上 阅读全文

posted @ 2014-01-07 15:05 sambazhu 阅读(2014) 评论(0) 推荐(0) 编辑

这个博客的由来

摘要: 笔者从事电信行业大型商业智能系统工作多年,日前从事B2C电商网站类数据分析工作,特开设此微博,在发表好文同时,研究网站分析技术。 阅读全文

posted @ 2014-01-07 13:32 sambazhu 阅读(121) 评论(0) 推荐(0) 编辑

PLSQL Developer 不能连接 oracle 12c 64位 的解决办法 for win 64

摘要: oracle_12c_winx64 安装后有个问题:tnsping orcl 正常sqlplususer/password 正常plsql developeruser/password 不能登录sqlplus user/password@orcl 报“ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务”错误此时,修改oracle\product\12.1.0\dbhome_1\NETWORK\ADMIN\listener.ora按照红色部分修改,增加监听的sid:SID_LIST_LISTENER =(SID_LIST = (SID_DESC = (SID_NAME = .. 阅读全文

posted @ 2014-01-07 13:30 sambazhu 阅读(834) 评论(0) 推荐(0) 编辑

Hadoop中国技术峰会引发Hadoop 2.0风暴

摘要: 作为本年度大中华地区规模最大的Hadoop技术峰会,China Hadoop Summit是不会被这两大厂商忽视的。记者日前从大会组委会了解到,Hortonworks亚太区技术总监Jeff Markham将在大会第一天发表主题演讲,重点介绍Hadoop 2.0和YARN的最新消息,以及Hadoop未来的发展方向与亮点,将Hadoop 2.0旋风带至中国!大会第二天,Cloudera的明星工程师Todd Lipcon将进一步分享Hadoop和Hbase的最新特性,Todd Lipcon是Apache Hadoop、HBase和Thrift的Committer和PMC!所以,想要把握Hadoop最 阅读全文

posted @ 2014-01-07 13:23 sambazhu 阅读(257) 评论(0) 推荐(0) 编辑

[转]浅谈B2C的数据分析

摘要: 通过数据分析可以知道商业模式是否可行,评判那种推广渠道效率最高,能发现网站、商品结构、物流等各个环节的问题,能评估改进效果。笔者曾半路出家,负责过数据分析工作,理解有限,简单谈谈笔者所知的数据分析吧。新建B2C网站的数据来源有网站统计工具、ERP系统、客服回访问卷投诉等途径。网站数据主要包含:访问量(IPUVPV)、平均浏览时长(浏览量)、新UV比例、跳出率、转化率(注册、订单、支付)、流量来源(搜索、直接、连接、地区、推广)、网页打开时间、网站热点、搜索分析等。ERP数据主要包含:订单量、客单价、毛利率、二次购买率、忠实顾客转化率、顾客流失率、动销率、缺货率、商品价格变化、SKU数量变化、. 阅读全文

posted @ 2014-01-07 13:01 sambazhu 阅读(416) 评论(0) 推荐(0) 编辑

导航