望穿秋水
管理&技术&业务 项目管理方面:加强通过工具辅助管理,构建Web项目管理系统来协助项目管理。技术开发方面:加强系统分析能力、架构设计能力,时刻把握新技术动态。业务方面:加强需求分析能力,使最终需求来源于客户又高于客户。
随笔 - 394,  文章 - 14,  评论 - 368,  阅读 - 225万
06 2018 档案
Hive和并行数据仓库的比较
摘要:最近分析和比较了Hive和并行数据仓库的架构,本文记下一些体会。 Hive是架构在Hadoop MapReduce Framework之上的开源数据分析系统。 Hive具有如下特点: 1. 数据以HDFS文件的形式存储,从而可以很方便的使用外部文件 2. 元数据存储独立于数据存储之外,从而解耦合元数 阅读全文
posted @ 2018-06-30 08:57 望穿秋水 阅读(459) 评论(0) 推荐(0) 编辑
sqlserver2017 +SSMS+ VS2017+SSDT 安装要点及相关组件下载地址
摘要:1、sqlserver2017安装PolyBase需要安装jdk7 ,注意必须是7 jdk10是不行的。 下载地址:http://dl-t1.wmzhe.com/30/30117/jdk_7u_1.7.0.0_64.exe 2、sqlserver安装完成之后是没有SSMS客户端管理环境的,这个是单独 阅读全文
posted @ 2018-06-29 11:33 望穿秋水 阅读(5973) 评论(0) 推荐(0) 编辑
从数据仓库到大数据,数据平台这25年是怎样进化的?[转]
摘要:从数据仓库到大数据,数据平台这25年是怎样进化的? 大数据平台 lxw1234@qq.com 2年前 (2016-03-23) 5778℃ 2评论 从「数据仓库」一词到现在的「大数据」,中间经历了太多的知识、架构模式的演进与变革。数据平台这25年究竟是怎样进化的?让InfoQ特约老司机为你讲解。 我 阅读全文
posted @ 2018-06-29 10:55 望穿秋水 阅读(833) 评论(0) 推荐(0) 编辑
大数据环境下互联网行业数据仓库/数据平台的架构之漫谈-续【转】
摘要:上次写的《大数据环境下互联网行业数据仓库/数据平台的架构之漫谈》一文,已是一年前的事了,经过一年的沉淀与公司业务的发展,大数据平台的架构也有所演进,本文简单介绍了架构更新的部分。 整体架构 数据采集 对于关系型数据库以及部分NOSQL(Redis、MongoDB)中的数据,仍然使用DataHub按天 阅读全文
posted @ 2018-06-29 10:54 望穿秋水 阅读(349) 评论(0) 推荐(0) 编辑
大数据分析界的“神兽”Apache Kylin有多牛?【转】
摘要:本文作者:李栋,来自Kyligence公司,也是Apache Kylin Committer & PMC member,在加入Kyligence之前曾就职于eBay、微软。 1.Apache Kylin是什么? 在现在的大数据时代,越来越多的企业开始使用Hadoop管理数据,但是现有的业务分析工具( 阅读全文
posted @ 2018-06-29 10:54 望穿秋水 阅读(340) 评论(0) 推荐(0) 编辑
民生银行十五年的数据体系建设,深入解读阿拉丁大数据生态圈、人人BI 是如何养成的?【转】
摘要:早在今年的上半年我应邀参加了由 Smartbi 主办的一个小型数据分析交流活动,在活动现场第一次了解到了民生银行的阿拉丁项目。由于时间关系,嘉宾现场分享的内容非常有限。凭着多年对行业研究和对解决方案的嗅觉与敏感性,意识到这个阿拉丁项目的完整性和独特性超出了以往我所接触过的所有 BI 领域的项目案例, 阅读全文
posted @ 2018-06-29 10:54 望穿秋水 阅读(363) 评论(0) 推荐(0) 编辑
最全的“大数据”学习资源
摘要:关系数据库管理系统(RDBMS) 框架 分布式编程 分布式文件系统 文件数据模型 Key -Map 数据模型 键-值数据模型 图形数据模型 NewSQL数据库 列式数据库 时间序列数据库 类SQL处理 数据摄取 服务编程 调度 机器学习 基准测试 安全性 系统部署 应用程序 搜索引擎与框架 MySQ 阅读全文
posted @ 2018-06-29 10:54 望穿秋水 阅读(665) 评论(0) 推荐(0) 编辑
SPSS SAS 是什么?
摘要:SPSS(Statistical Product and Service Solutions),“统计产品与服务解决方案”软件。最初软件全称为“社会科学统计软件包”(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领 阅读全文
posted @ 2018-06-29 10:54 望穿秋水 阅读(2837) 评论(0) 推荐(0) 编辑
唯品会海量实时OLAP分析技术升级之路
摘要:本文转载自公众号 DBAplus社群 , 作者:谢麟炯 谢麟炯,唯品会大数据平台高级技术架构经理,主要负责大数据自助多维分析平台,离线数据开发平台及分析引擎团队的开发和管理工作,加入唯品会以来还曾负责流量基础数据的采集和数据仓库建设以及移动流量分析等数据产品的工作。 海量数据实时OLAP场景的困境 阅读全文
posted @ 2018-06-29 10:53 望穿秋水 阅读(342) 评论(0) 推荐(0) 编辑
大数据学习笔记
摘要:skynet任务监控与调度系统用户手册 https://wenku.baidu.com/view/18b636c6a5e9856a5712606f.html http://lxw1234.com/archives/2015/04/109.htm 浅谈分布式计算的开发与实现(一) 浅谈分布式计算的开发 阅读全文
posted @ 2018-06-29 10:53 望穿秋水 阅读(129) 评论(0) 推荐(0) 编辑
元数据
摘要:· Metadata:kylin中有大量的元数据信息,包括cube的定义,星状模型的定义、job的信息、job的输出信息、维度的directory信息等等,元数据和cube都存储在hbase中,存储的格式是json字符串,除此之外,还可以选择将元数据存储在本地文件系统。 https://www.cn 阅读全文
posted @ 2018-06-29 10:53 望穿秋水 阅读(184) 评论(0) 推荐(0) 编辑
写给大数据开发初学者的话5[转]
摘要:至此,你的大数据平台底层架构已经成型了,其中包括了数据采集、数据存储与计算(离线和实时)、数据同步、任务调度与监控这几大模块。接下来是时候考虑如何更好的对外提供数据了。 第九章:我的数据要对外 通常对外(业务)提供数据访问,大体上包含以下方面: 离线数据的提供可以采用Sqoop、DataX等离线数据 阅读全文
posted @ 2018-06-29 10:53 望穿秋水 阅读(257) 评论(0) 推荐(0) 编辑
大数据环境下互联网行业数据仓库/数据平台的架构之漫谈[转]
摘要:导读: 整体架构 数据采集 数据存储与分析 数据共享 数据应用 实时计算 任务调度与监控 元数据管理 总结 一直想整理一下这块内容,既然是漫谈,就想起什么说什么吧。我一直是在互联网行业,就以互联网行业来说。 先大概列一下互联网行业数据仓库、数据平台的用途: 上面列出的内容看上去和传统行业数据仓库用途 阅读全文
posted @ 2018-06-29 10:52 望穿秋水 阅读(326) 评论(0) 推荐(0) 编辑
一个母婴电子商务网站贝贝网的大数据平台及机器学习实践【转】
摘要:关键字:大数据平台、机器学习 贝贝网的主要产品是垂直的母婴类,母婴相对一般的电子商务网站有一些特点:第一个特点是商品周期短,在母婴网站上的商品,在线的时间不会超过5-7天,第二个是用户需求的变化快,在母婴行业,可能是用户的需求变化最快的领域,比如是用户处在怀孕当中,关心的是孕妈的一些问题,几个月以后 阅读全文
posted @ 2018-06-29 10:52 望穿秋水 阅读(302) 评论(0) 推荐(0) 编辑
分布式大数据多维分析(OLAP)引擎Apache Kylin安装配置及使用示例【转】
摘要:Kylin 麒麟官网:http://kylin.apache.org/cn/download/ 关键字:olap、Kylin Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay 开发并贡献至开源社区。它 阅读全文
posted @ 2018-06-29 10:52 望穿秋水 阅读(337) 评论(0) 推荐(0) 编辑
官方教程:Apache Kylin和Superset集成,使用开源组件,完美打造OLAP系统
摘要:本文转自Apache Kylin公众号apachekylin. Superset 是一个数据探索和可视化平台,设计用来提供直观的,可视化的,交互式的分析体验。 Superset 提供了两种分析数据源的方式: 1. 用户可以以单表形式直接查询多种数据源,包括 Presto、Hive、Impala、Sp 阅读全文
posted @ 2018-06-29 10:52 望穿秋水 阅读(968) 评论(0) 推荐(0) 编辑
数据仓库之数据模型
摘要:关于数据仓库的概念,这里不再累赘。先看下面的图(数据仓库建设的7个主要环节): 本文,主要针对第三块数据仓库模型设计来讨论交流,尤其是互联网行业。 一、关于数据仓库数据模型 1. 数据仓库数据模型是指使用实体、属性及其关系对企业运营和逻辑规则进行统一的定义、编码和命名;是业务人员和开发人员之间沟通的 阅读全文
posted @ 2018-06-29 10:52 望穿秋水 阅读(374) 评论(0) 推荐(0) 编辑
把leveldb嵌入到redis.实现真正的数据持久存储
摘要:目前最新版RedisStorage 是基于 redis 2.6.2基础上,加上 leveldb存储引擎。 这个项目是源于 公司项目的passport 用户认证改造。公司一个项目运行了N年。积累了几千万用户,并且每天不断的高速增长中。原有的mysql分表模式已经不适合。所以寻找nosql的解决方案。经 阅读全文
posted @ 2018-06-29 10:51 望穿秋水 阅读(2006) 评论(0) 推荐(0) 编辑
超强、超详细Redis入门教程【转】
摘要:这篇文章主要介绍了超强、超详细Redis入门教程,本文详细介绍了Redis数据库各个方面的知识,需要的朋友可以参考下 【本教程目录】 1.redis是什么2.redis的作者何许人也3.谁在使用redis4.学会安装redis5.学会启动redis6.使用redis客户端7.redis数据结构 – 阅读全文
posted @ 2018-06-29 10:51 望穿秋水 阅读(179024) 评论(2) 推荐(12) 编辑
redis-storage介绍[转]
摘要:背景: 当时我们正在做一个游戏项目,游戏项目相比于web项目,更追求的是单机的性能,而我们对单个请求的处理时间有着bt级的需求(一个完整的api请求控制在10ms以内)。当时我们的数据层用的是ttserver,但他在我们之前项目中有一些比较不好处理的问题,所以我一直在寻找的替代方向,而这时redis 阅读全文
posted @ 2018-06-16 17:22 望穿秋水 阅读(679) 评论(0) 推荐(0) 编辑
redis(三)积累-基本的取值和设值
摘要:1. 先把redis的连接池拿出来, JedisPool pool=new JedisPool(new JedisPoolConfig(),"127.0.0.1") Jedis jedis=pool.getResource(); 2. 设值: jedis.set("key1","value1"); 阅读全文
posted @ 2018-06-16 10:56 望穿秋水 阅读(611) 评论(0) 推荐(0) 编辑
Redis能干啥?细看11种Web应用场景[转]
摘要:下面列出11种Web应用场景,在这些场景下可以充分的利用Redis的特性,大大提高效率。 1.在主页中显示最新的项目列表。 Redis使用的是常驻内存的缓存,速度非常快。LPUSH用来插入一个内容ID,作为关键字存储在列表头部。LTRIM用来限制列表中的项目数最多为5000。如果用户需要的检索的数据 阅读全文
posted @ 2018-06-16 10:33 望穿秋水 阅读(539) 评论(0) 推荐(0) 编辑
SQLServer BI 学习笔记
摘要:MSBI 学习库: https://ask.hellobi.com/blog/biwork SSAS库部署的几种方式 http://www.cnblogs.com/aspnetx/archive/2010/09/02/1815982.html 如果说商业智能分为三个层次:告诉你发生了什么,为什么会发 阅读全文
posted @ 2018-06-15 16:09 望穿秋水 阅读(2059) 评论(0) 推荐(0) 编辑
数据仓库一些整理(列式数据库)【转】
摘要:术语备注: 1、OLTP。这是on-line transaction processing的简写。翻译成联机事务处理。就是在线交易的业务数据。这方面的数据库是关系型数据库。 2、OLAP。On-Line Analytical Processing 翻译成联机分析处理。通俗理解,就是做数据统计、分析的 阅读全文
posted @ 2018-06-15 11:53 望穿秋水 阅读(1092) 评论(0) 推荐(1) 编辑
HUABASE :基于列存储的关系型数据库系统
摘要:摘要 HUABASE 是基于列存储的关系型数据库系统。列存储技术的特点是数据查询效率高,读磁盘少,存储空间少,是构建数据仓库的理想架构。 HUABASE 实现了多种数据压缩机制、查询优化和稀疏索引技术,在支持高效率的商业智能方面具有良好的发展前景,可以帮助企业轻松做出明智的业务经营决策。 HUABA 阅读全文
posted @ 2018-06-15 11:11 望穿秋水 阅读(504) 评论(0) 推荐(0) 编辑
HBase数据库集群配置【转】
摘要:https://www.cnblogs.com/ejiyuan/p/5591613.html HBase简介 HBase是Apache Hadoop中的一个子项目,是一个HBase是一个开源的、分布式的、多版本的、面向列的、非关系(NoSQL)的、可伸缩性分布式数据存储模型,Hbase依托于Hado 阅读全文
posted @ 2018-06-15 10:58 望穿秋水 阅读(255) 评论(0) 推荐(0) 编辑
看完这篇文章后,别再说自己不懂用户画像了【转】
摘要:用户画像是一个挺新颖的词,最初它是大数据行业言必及之的时髦概念。现在我们运营谈及用户画像,它也是和精准营销、精细化运营直接钩挂的。这篇文章主要讲产品和运营角度的用户画像。 希望看完后,解决你一切关于用户画像的疑问。 什么是用户画像 用户画像一点也不神秘,它是根据用户在互联网留下的种种数据,主动或被动 阅读全文
posted @ 2018-06-10 12:51 望穿秋水 阅读(832) 评论(0) 推荐(0) 编辑
联机分析处理ROLAP、MOLAP和HOLAP区别(转)
摘要:OLAP(on-Line Analysis Processing)是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。 “维”(di 阅读全文
posted @ 2018-06-10 12:24 望穿秋水 阅读(725) 评论(0) 推荐(0) 编辑


点击右上角即可分享
微信分享提示