随笔分类 -  大数据技术

摘要:日志采集: 浏览器: 浏览日志: 流程: 客户端日志采集客户端日志发送服务器端日志收集服务器端日志解析存档 采集方式: 1. 业务服务器在响应业务请求时动态在HTML 文档内植入日志采集脚本 2. 在开发页面时由开发人员手动植人。 交互日志: 页面交互,与业务高度自定义。 服务端清洗和预处理: 识别 阅读全文
posted @ 2022-03-31 17:35 心平万物顺 阅读(137) 评论(0) 推荐(0) 编辑
摘要:elasticSearch: 概述: Elasticsearch,简称为es, es是一个开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理PB级别的数据。es也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它 阅读全文
posted @ 2022-03-30 21:15 心平万物顺 阅读(139) 评论(0) 推荐(0) 编辑
摘要:Apache Hbase: 概述: HBase 基于 Google的BigTable论文而来,是一个分布式海量列式非关系型数据库系统,可以提供超大规模数据集的实时随机读写。 列时存储的优点: 1)减少存储空间占用。2)支持好多列 特点: 海量存储: 底层基于HDFS存储海量数据列式存储:HBase表 阅读全文
posted @ 2022-03-22 17:57 心平万物顺 阅读(294) 评论(0) 推荐(0) 编辑
摘要:基本概念: 概述: Metamarkets 公司(一家为在线媒体或广告公司提供数据分析服务的公司)推出的一个分布式内存实时分析系统,用于解决如何在大规模数据集下进行快速的、交互式的查询和分析。Druid 是一个开源的数据分析引擎工具,为实时和历史数据的次秒级(多于一秒)查询设计。主要应用于对数据的O 阅读全文
posted @ 2022-02-23 20:06 心平万物顺 阅读(968) 评论(0) 推荐(0) 编辑
摘要:基本介绍: 概述: 直接使用MapReduce处理大数据,将面临以下问题: - MapReduce 开发难度大,学习成本高(wordCount => Hello World)- Hdfs文件没有字段名、没有数据类型,不方便进行数据的有效管理- 使用MapReduce框架开发,项目周期长,成本高Hiv 阅读全文
posted @ 2022-01-25 12:56 心平万物顺 阅读(281) 评论(0) 推荐(0) 编辑
摘要:基本介绍: 概念: 一个快速开源的OLAP数据库管理系统,它是面向列的,允许使用SQL查询实时生成分析报告。 背景知识: 历史olap: 定时(通常是T+1 或者 T+H)将 HBase 数据写成静态的文件(如:Parquet)导入到 OLAP 引擎(如:HDFS,比较常见的是Impala操作Hiv 阅读全文
posted @ 2022-01-25 12:45 心平万物顺 阅读(1910) 评论(0) 推荐(0) 编辑
摘要:​​​​​​浅谈网易大数据平台下的数据质量-社区博客-网易数帆 伴鱼数据质量中心的设计与实现 | 伴鱼技术团队 (ipalfish.com) 阅读全文
posted @ 2021-12-07 18:01 心平万物顺 阅读(50) 评论(0) 推荐(0) 编辑
摘要:kafka监控平台:https://github.com/smartloli/EFAK flink作业管理平台:https://github.com/zhp8341/flink-streaming-platform-web 数据可视化:https://github.com/dataease/data 阅读全文
posted @ 2021-12-07 17:36 心平万物顺 阅读(1004) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示