大数据 - 随笔分类 - 疯狂的小萝卜头

elasticsearch Java High Level REST 相关操作封装

摘要：pox.xml文件添加以下内容 org.elasticsearch.client elasticsearch-rest-high-level-client 6.3.2新建ESHighLevelRestUtil.javapackage com;imp... 阅读全文

posted @ 2018-07-26 13:52 疯狂的小萝卜头阅读(2602) 评论(0) 推荐(0) 编辑

elasticsearch 字段数据类型

摘要：核心数据类型（Core datatypes）字符型（String datatype）：string 数字型（Numeric datatypes）：long, integer, short, byte, double, float 日期型（Date datatype）：... 阅读全文

posted @ 2018-07-26 11:54 疯狂的小萝卜头阅读(2285) 评论(0) 推荐(0) 编辑

Spark MLlib机器学习（一）——决策树

摘要：决策树模型，适用于分类、回归。简单地理解决策树呢，就是通过不断地设置新的条件标准对当前的数据进行划分，最后以实现把原始的杂乱的所有数据分类。就像下面这个图，如果输入是一大堆追求一个妹子的汉子，妹子内心里有个筛子，最后菇凉也就决定了和谁约（举栗而已哦，不代表什么～大家... 阅读全文

posted @ 2018-05-18 15:19 疯狂的小萝卜头阅读(224) 评论(0) 推荐(0) 编辑

Spark 计算人员三度关系

摘要：1、一度人脉：双方直接是好友 2、二度人脉：双方有一个以上共同的好友，这时朋友网可以计算出你们有几个共同的好友并且呈现数字给你。你们的关系是：你->朋友->陌生人 3、三度人脉：即你朋友的朋友的朋友就是这个陌生人。你们的关系是你->朋友->朋友->陌生人 4、四度... 阅读全文

posted @ 2018-05-17 13:09 疯狂的小萝卜头阅读(567) 评论(0) 推荐(0) 编辑

Spark 计算人员二度关系

摘要：1、一度人脉：双方直接是好友 2、二度人脉：双方有一个以上共同的好友，这时朋友网可以计算出你们有几个共同的好友并且呈现数字给你。你们的关系是：你->朋友->陌生人 3、三度人脉：即你朋友的朋友的朋友就是这个陌生人。你们的关系是你->朋友->朋友->陌生人 4、四度... 阅读全文

posted @ 2018-05-17 11:35 疯狂的小萝卜头阅读(549) 评论(0) 推荐(0) 编辑

Hadoop MapReduce实现人员二度关系运算

摘要：1、一度人脉：双方直接是好友 2、二度人脉：双方有一个以上共同的好友，这时朋友网可以计算出你们有几个共同的好友并且呈现数字给你。你们的关系是：你->朋友->陌生人 3、三度人脉：即你朋友的朋友的朋友就是这个陌生人。你们的关系是你->朋友->朋友->陌生人 4、四度... 阅读全文

posted @ 2018-05-17 11:11 疯狂的小萝卜头阅读(377) 评论(0) 推荐(0) 编辑

Spark2.0基于广播变量broadcast实现实时数据按天统计

摘要：package com.gm.hive.SparkHive;import java.text.SimpleDateFormat;import java.util.Arrays;import java.util.Collection;import java.util.D... 阅读全文

posted @ 2018-05-08 16:04 疯狂的小萝卜头阅读(1722) 评论(0) 推荐(0) 编辑

Sprak2.0 Streaming消费Kafka数据实时计算及运算结果保存数据库代码示例

摘要：package com.gm.hive.SparkHive;import java.util.Arrays;import java.util.Collection;import java.util.HashMap;import java.util.List;impor... 阅读全文

posted @ 2018-05-07 14:42 疯狂的小萝卜头阅读(1048) 评论(0) 推荐(0) 编辑

Spark2.0集成Hive操作的相关配置与注意事项

摘要：前言已完成安装Apache Hive，具体安装步骤请参照，Linux基于Hadoop2.8.0集群安装配置Hive2.1.1及基础操作补充说明Hive中metastore（元数据存储）的三种方式：内嵌Derby方式Local方式Remote方式[一]、内嵌Derby方... 阅读全文

posted @ 2018-05-05 13:15 疯狂的小萝卜头阅读(4618) 评论(0) 推荐(0) 编辑

总结可用的大数据分析软件对应版本

摘要：apache-flume-1.8.0-bin、kafka_2.11-0.10.0.0、spark-2.0.0-bin-hadoop2.7hadoop-2.8.0、hbase-1.2.6、apache-hive-2.1.1-bin、zookeeper-3.4.10、sq... 阅读全文

posted @ 2018-05-04 11:20 疯狂的小萝卜头阅读(222) 评论(0) 推荐(0) 编辑

Linux安装Sqoop及基础使用

摘要：下载Sqoop官网地址http://sqoop.apache.org/wget http://mirrors.hust.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz安装及配置解压tar -... 阅读全文

posted @ 2018-05-04 11:15 疯狂的小萝卜头阅读(2707) 评论(0) 推荐(0) 编辑

Spark集成Kafka实时流计算Java案例

摘要：package com.test;import java.util.*;import org.apache.spark.SparkConf;import org.apache.spark.TaskContext;import org.apache.spark.api.... 阅读全文

posted @ 2018-05-03 16:39 疯狂的小萝卜头阅读(1501) 评论(0) 推荐(0) 编辑

CentOS7搭建Hadoop2.8.0集群及基础操作与测试

摘要：环境说明示例环境主机名IP角色系统版本数据目录Hadoop版本master192.168.174.200nameNodeCentOS Linux release 7.4.1708 (Core) 2.8.0slave1192.168.129.201dataNodeCen... 阅读全文

posted @ 2018-05-03 14:30 疯狂的小萝卜头阅读(157) 评论(0) 推荐(0) 编辑

CentOS7搭建Flume与Kafka整合及基础操作与测试

摘要：前提已完成Kafka的搭建，具体步骤参照CentOS7搭建Kafka单机环境及基础操作Flume安装下载wget http://mirrors.tuna.tsinghua.edu.cn/apache/flume/1.6.0/apache-flume-1.6.0-bin... 阅读全文

posted @ 2018-04-26 10:30 疯狂的小萝卜头阅读(131) 评论(0) 推荐(0) 编辑

CentOS7搭建Storm集群及基础操作

摘要：前提安装Kafka前需要先安装zookeeper集群，集体安装方法请参照我的另一篇文档Storm安装下载 wget https://mirrors.tuna.tsinghua.edu.cn/apache/storm/apache-storm-1.1.0/apache-... 阅读全文

posted @ 2018-04-25 17:45 疯狂的小萝卜头阅读(422) 评论(0) 推荐(0) 编辑

CentOS7搭建Kafka单机环境及基础操作

摘要：前提安装Kafka前需要先安装zookeeper集群，集体安装方法请参照我的另一篇文档。Kafka安装下载wget https://archive.apache.org/dist/kafka/0.8.0/kafka_2.8.0-0.8.0.tar.gz 解压tar -... 阅读全文

posted @ 2018-04-25 17:25 疯狂的小萝卜头阅读(501) 评论(0) 推荐(0) 编辑

Storm消费Kafka值得注意的坑

摘要：问题描述： kafka是之前早就搭建好的，新建的storm集群要消费kafka的主题，由于kafka中已经记录了很多消息，storm消费时从最开始消费问题解决：下面是摘自官网的一段话：How KafkaSpout stores offsets of a Kafk... 阅读全文

posted @ 2018-04-25 17:01 疯狂的小萝卜头阅读(2250) 评论(0) 推荐(0) 编辑

疯狂的小萝卜头

随笔分类 - 大数据

elasticsearch Java High Level REST 相关操作封装

elasticsearch 字段数据类型

Spark MLlib机器学习（一）——决策树

Spark 计算人员三度关系

Spark 计算人员二度关系

Hadoop MapReduce实现人员二度关系运算

Spark2.0基于广播变量broadcast实现实时数据按天统计

Sprak2.0 Streaming消费Kafka数据实时计算及运算结果保存数据库代码示例

Spark2.0集成Hive操作的相关配置与注意事项

总结可用的大数据分析软件对应版本

Linux安装Sqoop及基础使用

Spark集成Kafka实时流计算Java案例

CentOS7搭建Hadoop2.8.0集群及基础操作与测试

CentOS7搭建Flume与Kafka整合及基础操作与测试

CentOS7搭建Storm集群及基础操作

CentOS7搭建Kafka单机环境及基础操作

Storm消费Kafka值得注意的坑

导航

公告

统计

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论