摘要:
一、"大数据时代",数据获取的方式 1. 企业生产的用户数据:大型互联网公司有海量用户,所以他们积累数据有天然的优势。 有数据意识的中小型企业,也开始积累的数据。 2. 数据管理咨询公司:通常这样的公司有很庞大的数据采集团队,一般会通过市场调研、问卷调查、固定的样本检测, 和各行各业的公司进行合作、 阅读全文
摘要:
前言,好的正手网前,还是三要素:一致性,高质量,和稳定性。 在你未出手前,对手绝对不敢动,先动就是找死。 技巧 (1)握拍 -- 重点 握拍方式如下图。 为什么要用这种握平底锅的握法?我开始也是存有疑问的,但是实际试用以后,出球质量和稳定性却是大大的超出我的想象。 解析一下原因:手掌的方向和拍面的方 阅读全文
摘要:
Flume简介 --(实时抽取数据的工具) 1) Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。 2) Flume基于流式架构,容错性强,也很灵活简单。 3) Flume、Kafka用来实时进行数据收集,Spark、Storm 阅读全文
摘要:
什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 1)Hive处理的数据存储在HDFS 2)Hive分析数据底层 阅读全文
摘要:
简介 ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。 特点 在Zookeeper中,znode是 阅读全文
摘要:
一 MapReduce入门 MapReduce定义(简单来说就是hadoop的数据分析核心,理解其中的原理,则可以分析聚合一切需求) Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。 Mapreduce核心功能是将用户编写的业务逻辑代码和自带 阅读全文
摘要:
一、安装java 二、IntelliJ IDEA(2018)安装和破解与初期配置 参考链接 1.进入官网下载IntelliJ IDEA https://www.jetbrains.com/idea/download/#section=windows,选择收费版,下面再破解 2.点击下载进入下载页开始 阅读全文
摘要:
注意:这次使用的是第二部分安装的集群,不是高可用集群 为了方便,开发,必须写集群脚本,试想集群的机器是100台以上,而不是3台的情况。。。。 集群启动脚本 集群关闭脚本 集群详情脚本 一、启动hadoop集群 二、常用的shell操作 阅读全文
摘要:
八成以上程序员有掉头发的烦恼(我随便乱说的),今天为什么会写这编博客,因为我的一个旧同学开了家生发店,卖的东西都是8千多起跳(不过大家放心,我不是向大家安利他的店,我这等穷屌丝,只会使用不要钱的方法来达到目的)。先去百度一下,如何生发养发。。。第一第二页基本可以跳过,都是在卖广告。第三页开始有点实际 阅读全文
摘要:
首先说明的是Sumblime Text 3,下载安装后,打开软件, 按下Ctrl+Shift+P调出命令面板, 按回车键后弹出下面的 然后 点击左上角的 文件 》SFTP/FTP 》 Setup Server ... 设置访问主机配置,保存后就可以点击远程编辑文件了。 SFTP 插件。主要功能就是通 阅读全文