随笔分类 -  大数据

elasticsearch Java High Level REST 相关操作封装
摘要:pox.xml文件添加以下内容 org.elasticsearch.client elasticsearch-rest-high-level-client 6.3.2新建ESHighLevelRestUtil.javapackage com;imp... 阅读全文

posted @ 2018-07-26 13:52 疯狂的小萝卜头 阅读(2602) 评论(0) 推荐(0) 编辑

elasticsearch 字段数据类型
摘要:核心数据类型(Core datatypes)字符型(String datatype):string 数字型(Numeric datatypes):long, integer, short, byte, double, float 日期型(Date datatype):... 阅读全文

posted @ 2018-07-26 11:54 疯狂的小萝卜头 阅读(2285) 评论(0) 推荐(0) 编辑

Spark MLlib机器学习(一)——决策树
摘要:决策树模型,适用于分类、回归。 简单地理解决策树呢,就是通过不断地设置新的条件标准对当前的数据进行划分,最后以实现把原始的杂乱的所有数据分类。就像下面这个图,如果输入是一大堆追求一个妹子的汉子,妹子内心里有个筛子,最后菇凉也就决定了和谁约(举栗而已哦,不代表什么~大家... 阅读全文

posted @ 2018-05-18 15:19 疯狂的小萝卜头 阅读(224) 评论(0) 推荐(0) 编辑

Spark 计算人员三度关系
摘要:1、一度人脉:双方直接是好友 2、二度人脉:双方有一个以上共同的好友,这时朋友网可以计算出你们有几个共同的好友并且呈现数字给你。你们的关系是: 你->朋友->陌生人 3、三度人脉:即你朋友的朋友的朋友就是这个陌生人。你们的关系是 你->朋友->朋友->陌生人 4、四度... 阅读全文

posted @ 2018-05-17 13:09 疯狂的小萝卜头 阅读(567) 评论(0) 推荐(0) 编辑

Spark 计算人员二度关系
摘要:1、一度人脉:双方直接是好友 2、二度人脉:双方有一个以上共同的好友,这时朋友网可以计算出你们有几个共同的好友并且呈现数字给你。你们的关系是: 你->朋友->陌生人 3、三度人脉:即你朋友的朋友的朋友就是这个陌生人。你们的关系是 你->朋友->朋友->陌生人 4、四度... 阅读全文

posted @ 2018-05-17 11:35 疯狂的小萝卜头 阅读(549) 评论(0) 推荐(0) 编辑

Hadoop MapReduce实现人员二度关系运算
摘要:1、一度人脉:双方直接是好友 2、二度人脉:双方有一个以上共同的好友,这时朋友网可以计算出你们有几个共同的好友并且呈现数字给你。你们的关系是: 你->朋友->陌生人 3、三度人脉:即你朋友的朋友的朋友就是这个陌生人。你们的关系是 你->朋友->朋友->陌生人 4、四度... 阅读全文

posted @ 2018-05-17 11:11 疯狂的小萝卜头 阅读(377) 评论(0) 推荐(0) 编辑

Spark2.0基于广播变量broadcast实现实时数据按天统计
摘要:package com.gm.hive.SparkHive;import java.text.SimpleDateFormat;import java.util.Arrays;import java.util.Collection;import java.util.D... 阅读全文

posted @ 2018-05-08 16:04 疯狂的小萝卜头 阅读(1722) 评论(0) 推荐(0) 编辑

Sprak2.0 Streaming消费Kafka数据实时计算及运算结果保存数据库代码示例
摘要:package com.gm.hive.SparkHive;import java.util.Arrays;import java.util.Collection;import java.util.HashMap;import java.util.List;impor... 阅读全文

posted @ 2018-05-07 14:42 疯狂的小萝卜头 阅读(1048) 评论(0) 推荐(0) 编辑

Spark2.0集成Hive操作的相关配置与注意事项
摘要:前言已完成安装Apache Hive,具体安装步骤请参照,Linux基于Hadoop2.8.0集群安装配置Hive2.1.1及基础操作补充说明Hive中metastore(元数据存储)的三种方式:内嵌Derby方式Local方式Remote方式[一]、内嵌Derby方... 阅读全文

posted @ 2018-05-05 13:15 疯狂的小萝卜头 阅读(4618) 评论(0) 推荐(0) 编辑

总结可用的大数据分析软件对应版本
摘要:apache-flume-1.8.0-bin、kafka_2.11-0.10.0.0、spark-2.0.0-bin-hadoop2.7hadoop-2.8.0、hbase-1.2.6、apache-hive-2.1.1-bin、zookeeper-3.4.10、sq... 阅读全文

posted @ 2018-05-04 11:20 疯狂的小萝卜头 阅读(222) 评论(0) 推荐(0) 编辑

Linux安装Sqoop及基础使用
摘要:下载Sqoop官网地址http://sqoop.apache.org/wget http://mirrors.hust.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz安装及配置解压tar -... 阅读全文

posted @ 2018-05-04 11:15 疯狂的小萝卜头 阅读(2707) 评论(0) 推荐(0) 编辑

Spark集成Kafka实时流计算Java案例
摘要:package com.test;import java.util.*;import org.apache.spark.SparkConf;import org.apache.spark.TaskContext;import org.apache.spark.api.... 阅读全文

posted @ 2018-05-03 16:39 疯狂的小萝卜头 阅读(1501) 评论(0) 推荐(0) 编辑

CentOS7搭建Hadoop2.8.0集群及基础操作与测试
摘要:环境说明示例环境主机名IP角色系统版本数据目录Hadoop版本master192.168.174.200nameNodeCentOS Linux release 7.4.1708 (Core) 2.8.0slave1192.168.129.201dataNodeCen... 阅读全文

posted @ 2018-05-03 14:30 疯狂的小萝卜头 阅读(157) 评论(0) 推荐(0) 编辑

CentOS7搭建Flume与Kafka整合及基础操作与测试
摘要:前提已完成Kafka的搭建,具体步骤参照CentOS7搭建Kafka单机环境及基础操作Flume安装下载wget http://mirrors.tuna.tsinghua.edu.cn/apache/flume/1.6.0/apache-flume-1.6.0-bin... 阅读全文

posted @ 2018-04-26 10:30 疯狂的小萝卜头 阅读(131) 评论(0) 推荐(0) 编辑

CentOS7搭建Storm集群及基础操作
摘要:前提安装Kafka前需要先安装zookeeper集群,集体安装方法请参照我的另一篇文档Storm安装下载 wget https://mirrors.tuna.tsinghua.edu.cn/apache/storm/apache-storm-1.1.0/apache-... 阅读全文

posted @ 2018-04-25 17:45 疯狂的小萝卜头 阅读(422) 评论(0) 推荐(0) 编辑

CentOS7搭建Kafka单机环境及基础操作
摘要:前提安装Kafka前需要先安装zookeeper集群,集体安装方法请参照我的另一篇文档。Kafka安装下载wget https://archive.apache.org/dist/kafka/0.8.0/kafka_2.8.0-0.8.0.tar.gz 解压tar -... 阅读全文

posted @ 2018-04-25 17:25 疯狂的小萝卜头 阅读(501) 评论(0) 推荐(0) 编辑

Storm消费Kafka值得注意的坑
摘要:问题描述: kafka是之前早就搭建好的,新建的storm集群要消费kafka的主题,由于kafka中已经记录了很多消息,storm消费时从最开始消费问题解决: 下面是摘自官网的一段话:How KafkaSpout stores offsets of a Kafk... 阅读全文

posted @ 2018-04-25 17:01 疯狂的小萝卜头 阅读(2250) 评论(0) 推荐(0) 编辑

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

点击右上角即可分享
微信分享提示