上一页 1 ··· 5 6 7 8 9 10 下一页
摘要: 总结:HBase是一个分布式的数据库主要作用: 海量数据的存储和海量数据的准实时查询一、HBase的应用场景应用场景 交通 、金融、电商、移动 HBase特点 (重点): 针对特点去思考 容量大(针对TB级别的数据,千万起步) 列式存储(根据数据自动增加列),建表时不需要指定列 多版本(针对具体列,进行管理) 扩展性(在分布式文件系统,不需要停掉集群,可在集群... 阅读全文
posted @ 2019-04-30 17:21 BBBone 阅读(147) 评论(0) 推荐(0) 编辑
摘要:  阅读全文
posted @ 2019-04-30 17:20 BBBone 阅读(84) 评论(0) 推荐(0) 编辑
摘要: 功能1: 今天到现在为止 实战课程的访问量yyyyMMdd courseID使用数据库来进行存储我们的统计结果 Spark Streaming把统计结果写入到数据库里面 可视化前端根据: yyyyMMdd courseId 把数据库里面的统计结果展示出来选择什么数据库作为统计结果的存储呢? RDBMS: MySQL、Oracle... day ... 阅读全文
posted @ 2019-04-30 17:17 BBBone 阅读(1529) 评论(0) 推荐(0) 编辑
摘要: 数据清洗时间工具类开发:DateUtils.scalapackage com.imooc.utilsimport java.util.Dateimport org.apache.commons.lang3.time.FastDateFormat/** * 日期时间工具类 */object DateUtils {// 2019-03-31 06:00:00 val YYYYMMDDHHMMS... 阅读全文
posted @ 2019-04-30 17:17 BBBone 阅读(130) 评论(0) 推荐(0) 编辑
摘要: 一、产生实时数据(使用python编写),为以后的处理打基础构建:编写python脚本,用crontab定时执行编写python脚本文件,行内容包括time,ip,url,statu_code,referer的数据 generate_log.py#coding=UTF-8 # 导入random函数 import randomimport time# 定义url字段url_paths = [ ... 阅读全文
posted @ 2019-04-30 17:16 BBBone 阅读(540) 评论(0) 推荐(0) 编辑
摘要: 跟项目经理,确认业务 自己思考,写出大概流程,画出草体,跟同事交流, 写出具体流程,画出具体流程图, 确定业务,跟项目经理交流,进一步确定项目, 开始进行项目的开发0 、创建项目scala项目:G A V ,构建项目目录树,导入依赖 向pom.xml中导入依赖 2.11.8 0.9.0.0 2.2.0 org.scala-l... 阅读全文
posted @ 2019-04-30 17:15 BBBone 阅读(172) 评论(0) 推荐(0) 编辑
摘要: dependency1 创建一个带dependency的作业 关键点: dependenciesfirst.job type=command command=echo "first"second.job type=command dependencies=first command=echo "second"将first.job和second.job一起压缩,创... 阅读全文
posted @ 2019-04-30 17:12 BBBone 阅读(297) 评论(0) 推荐(0) 编辑
摘要: RDDSpark基本的数据结构叫弹性分布式数据集(Resilient Distributed Datasets,简称RDD).概念: 一个分布于集群节点的只读数据集合,并以容错的、并行的方式进行维护. 为了解决MapReduce的性能问题,Spark使用RDD作为分布式程序的工作集合,它提供一种分布式共享内存的受限形式.在分布式共享内存系统中,应用可以向全局地址空间的任意位置进行读写操... 阅读全文
posted @ 2019-04-30 17:10 BBBone 阅读(365) 评论(0) 推荐(0) 编辑
摘要: Hadoop的主要特点扩容能力: 能可靠地存储和处理PB级的数据.成本低: 可用廉价机器组成的服务器进行分发、处理数据.高效率: 通过分发数据,可在节点上进行处理,速度非常快.可靠性: 能自动维护数据的多份复制, 任务失败后能自动地重新部署计算任务.机架感知:概念:通过位置感知可以知道工作节点所处的机架(通过网络交换机)特点:HDFS使用机架感知在多个交换机的节点间复制数据,用于数据冗余.该方法降... 阅读全文
posted @ 2019-04-30 17:10 BBBone 阅读(354) 评论(0) 推荐(0) 编辑
摘要: CAP理论指的是任何一个分布式计算系统都不能同时保证如下三点: Consistency(一致性):所有节点上的数据时刻保持同步 Availability(可用性):每个请求都能接收到一个响应,无论响应成功或失败. Partition tolerance(分区容错性):系统应该能持续提供服务,无论网络中的任何分区失效. CA without P CP without A... 阅读全文
posted @ 2019-04-30 17:08 BBBone 阅读(194) 评论(0) 推荐(0) 编辑
上一页 1 ··· 5 6 7 8 9 10 下一页