随笔分类 - 大数据学习笔记
大数据学习笔记
摘要:2.4 内建角色 Read:允许用户读取指定数据库 readWrite:允许用户读写指定数据库 dbAdmin:允许用户在指定数据库中执行管理函数,如索引创建、删除,查看统计或访问system.profile userAdmin:允许用户向system.users集合写入,可以找指定数据库里创建、删
阅读全文
摘要:一、Spark Core 1. 什么是Spark Shuffle Wide Dependencies *ByKey: groupByKey,reduceByKey 关联操作:join,cogroup 窄依赖: 父RDD的每个分区的数据,仅仅只会给子RDD的一个分区。 Spark性能优化: 开发优化:
阅读全文
摘要:一、引言 Spark内存计算框架 中国Spark技术峰会 十二场演讲 大数据改变世界,Spark改变大数据 大数据: 以Hadoop 2.x为主的生态系统框架(MapReduce并行计算框架) 存储数据、处理数据 分布式 Spark: 类似于MapReduce的另外一种分布式计算框架 核心: 数据结
阅读全文
摘要:拓展: Hadoop 3.0 NameNode HA NameNode是Active NameNode是Standby可以有多个 HBase Cluster 单节点故障? HBaster -> BackMaster HRegionServer WEBUI 60010 Spark 课程安排分为两个部分
阅读全文
摘要:一、event事件分析 叶子节点只计算一次 父节点的触发次数由子节点的数量节点 事件流:是由业务人员定义的一系列的具有前后顺序的事件构成的用户操作行为,至少包括两个事件以上。 目标:以事件流为单位,分析事件流中各个事件的触发次数 事件流特征: 1.事件流中每一个事件都会存在一个来源/父事件 计算方式
阅读全文
摘要:一、ETL操作 抽取数据 日志格式: 分割符号:^A IP地址 服务器时间 二、Java工程 1. 创建项目 copy代码及配置文件 2. 改配置 core-site.xml hbase-site.xml 3. 代码描述 common包:常量(字段常量) dimension包:自定义key valu
阅读全文
摘要:一、大数据的落地点 1.数据出售 数据商城:以卖数据为公司的核心业务 2. 数据分析 百度统计 友盟 GA IBM analysis 3.搜索引擎 4. 推荐系统 mahout 百分比 5.精准营销 (1)广告投入:网站所有者集成广告联盟的js->访问者访问页面->js发送用户数据->广告联盟发送一
阅读全文
摘要:一、Storm项目 1. 架构 javasdk -> nginx -> 日志文件 -> flume agent(collector) -> hdfs -> kafka -> storm -> hbased kafka吞吐量达,可以被不同的消费者重复消费 2. 项目需求 电商 用户提交订单并且成功支付
阅读全文
摘要:http://www.cnblogs.com/lujinhong2/p/4686512.html http://blog.csdn.net/paul_wei2008/article/details/20830329 http://shiyanjun.cn/archives/1472.html 一、t
阅读全文
摘要:一、HBase性能调优 1. JVM内存调优 MemStore内存空间,设置合理大小 memstore.flush.size 刷写大小 134217728 = 128M memstore.mslab.enabled preclose.flush.size JVM堆内存 初生代内存空间:数据停留时间较
阅读全文
摘要:一、案例 微博: 微博内容: 关注用户和粉丝用户: 添加或移除关注用户 查看关注用户的微博内容 微博数据存储: 响应时间 秒级 无延迟 (1)mysql分布式 (2)hbase数据库 使用HBase数据库实现微博系统数据的存储 表的设计: 命名空间:weibo 1. 微博内容表 TableName:
阅读全文
摘要:一、HBase引入 http://hbase.apache.org/ 大数据的数据库 1. 概述 Hadoop生态系统中的一个分布式、可拓展、面向列、可伸缩,具有自动容错功能的数据库。 NoSQL数据库 BigTable:一种分布式海量结构化数据存储系统 HBase基于google论文实现的开源数据
阅读全文
摘要:一、日志收集项目案例 1. oozie中依赖jar包 在工作目录下创建lib目录,上传依赖包的lib目录下 2. 作业 将日志收集与处理项目案例使用oozie的workflow执行 3. coordinator 在workflow基础上添加了一个coordinator.xml coordinator
阅读全文
摘要:一、引入 MapReduce Job Hive 脚本任务 同一个业务:先后、定时调度 工作流: 定义工作流程 activity jbpm oozie: 大数据工作流定义与调度框架 专门定义与调度MapReduce Job工作流程 拓展:shell、hive、sqoop、hdfs oozie演变过程:
阅读全文
摘要:一、Flume http://flume.apache.org/FlumeUserGuide.html Flume是一个分布式的,可靠的,可用的,非常有效率的对大数据量的日志数据进行收集、聚集、移动信息的服务。 1. 架构方式 1)所有应用使用一台flume服务器; 2)所有应用共享flume集群;
阅读全文
摘要:一、hive的压缩 1. hadoop的压缩 1)为什么需要压缩 MapReduce的性能瓶颈:网络IO、磁盘IO 数据量:对于MapReduce的优化,最主要、根本就是要能够减少数据量 Combiner:减少跨网络传输的数据量 压缩:将数据量减少,但是需要消耗CPU计算功能 2)哪些地方可以压缩
阅读全文
摘要:一、Hive的JDBC连接 日志分析结果数据,存储在hive中 hive.server2.thrift.bind.host 如果需要远程连接,则改成主机名beifeng-hadoop-02,或者0.0.0.2(表示任何主机都可以连接) hiveserver2进程的启动:nohup hiveserve
阅读全文
摘要:一、 第二阶段课程回顾 hadoop 2.x HDFS YARN MapReduce Zookeeper Hive 二、大数据协作框架 对日志类型的海量数据进行分析 hdfs mapreduce/hive 1. 数据来源 (1)RDBMS(Oracle、MySQL、DB2...) -> sqoop(
阅读全文
摘要:https://cwiki.apache.org/confluence/display/Hive/LanguageManual 一、创建表 二、函数 show functions; describe function extended upper; select id, upper(name) fr
阅读全文