08 2019 档案
摘要:用户画像 从用户画像的数据架构谈需要掌握的大数据模块和开发语言 日全量数据表中,每天对应的日期分区中插入截止到当天为止的全量数据,用户使用查询时,只需查询最近一天即可获得最新全量数据。 下面以一个具体的日全量表结构例子来做说明。 这里tagid表示标签名称,userid表示用户id,tagweigh
阅读全文
摘要:Kettle是一款开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 Kettle工程存储方式 1) 以XML形式存储 2) 以资源库方式存储(数据库资源库和文件资源库) Kettle的两种设计 Kettle的组成 kettle特点 k
阅读全文
摘要:1. ClickHouse概述 ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库(DBMS),主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告 https://clickhouse.yandex/docs/zh/ 官网:https://clic
阅读全文
摘要:1. MongoDB简介 • MongoDB是为快速开发互联网Web应用而设计的数据库系统。• MongoDB的设计目标是极简、灵活、作为Web应用栈的一部分。• MongoDB的数据模型是面向文档的,所谓文档是一种类似于JSON的结构,简单理解MongoDB这个数据库中存的是各种各样的JSON。(
阅读全文
摘要:Phoenix Phoenix是HBase的开源SQL皮肤。可以使用标准JDBC API代替HBase客户端API来创建表,插入数据和查询HBase数据。 1.特点 1) 容易集成:如Spark,Hive,Pig,Flume和Map Reduce。 2) 性能好:直接使用HBase API以及协处理
阅读全文