随笔分类 - BigData相关
摘要:一.ES5.0解压安装到Windows之后(可能)需要进行的设置: 1.如果不设置,直接运行elasticsearch.bat 文件 ,会报错: 2.解决方式 调节 conf/jvm.options 配置文件 这里采取调小ES占用的内存: 默认配置如下图,初始化和最大内存大小为2G 调节为1g 之后
阅读全文
摘要:附录之前总结的一个例子: http://www.cnblogs.com/DreamDrive/p/7398455.html 另外两个有价值的博文: http://www.cnblogs.com/xuxm2007/archive/2011/09/03/2165805.html http://blog.
阅读全文
摘要:一. MR中的join的两种方式: 1.reduce side join(面试题) reduce side join是一种最简单的join方式,其主要思想如下: 在map阶段,map函数同时读取两个文件File1和File2,为了区分两种来源的key/value对,对每条数据打一个标签(tag),比
阅读全文
摘要:本文转载于:http://blog.csdn.net/xyilu/article/details/8996204 一.准备两张表以及对应的数据 (1)m_ys_lab_jointest_a(以下简称表A) 建表语句: 具体数据如下: (2)m_ys_lab_jointest_b(以下简称表B) 建表
阅读全文
摘要:一.RPC的引入 早期单机时代,一台电脑上运行多个进程,大家各干各的,老死不相往来。假如A进程需要一个画图的功能,B进程也需要一个画图的功能,程序员就必须为两个进程都写一个画图的功能。这不是整人么?于是就出现了IPC(Inter-process communication,单机中运行的进程之间的相互
阅读全文
摘要:一.个人初始开发环境的基本情况以及Hive元数据库说明 ①hive的元数据库改成了mysql(安装完mysql之后也没有进行其它别的设置) ②hive-site.xml中设置元数据库对应的配置为 jdbc:mysql://crxy99:3306/hive_cz3q?createDatabaseIfN
阅读全文
摘要:一.现象 三台机器 crxy99,crxy98,crxy97(crxy99是NameNode+DataNode,crxy98和crxy97是DataNode) 按正常命令启动HDFS之后,HDFS一直处于安全模式(造成启动Hive的时候失败,不能向HDFS上写数据),正常情况下是在启动的前30秒处于
阅读全文
摘要:1.Java代码操作HDFS需要用到Jar包和Java类 Jar包: hadoop-common-2.6.0.jar和hadoop-hdfs-2.6.0.jar Java类: java.net.URLorg.apache.hadoop.fs.FsUrlStreamHandlerFactoryjava
阅读全文
摘要:0.倒排索引资料: http://blog.csdn.net/pzasdq/article/details/51442856 1.三个日志源文件: a.txt b.txt c.txt 希望统计出来的结果如下: 2.上代码: 3.打成jar包,通过命令执行 查看结果文件:
阅读全文
摘要:1.日志源文件: 2.写含有partitioner的MR代码: 3.命令执行: 产生的结果文件: 代码中的逻辑是对应4个分区,设置了4个分区,就产生了4个分区文件... 查看各个文件中的内容: 4.其他情况: ① 如果代码中不设置分区的数量: job.setNumReduceTasks(Intege
阅读全文
摘要:1.日志源文件 (各个列分别是: 账户,营业额,花费,日期) 想要的结果: (计算出每个账户的总营业额和总花费,要求营业额排序降序,如果营业额相同则花费少的在上面) 2.写代码: InfoBean.java 对账户的后三个字段封装成一个Bean对象 SumStep.java 项目打成jar包放到Li
阅读全文
摘要:Flume组件 1. Source NetCat Source:绑定的端口(tcp、udp),将流经端口的每一个文本行数据作为Event输入; type:source的类型,必须是netcat。 bind:要监听的(本机的)主机名或者ip。此监听不是过滤发送方。一台电脑不是说只有一个IP。有多网卡的
阅读全文
摘要:1. 本地模式 本地模式下调试hadoop:下载winutils.exe和hadoop.dll hadoop.lib等windows的hadoop依赖文件放在D:\proc\hadoop\bin目录下 并设置环境变量:HADOOP_HOME=D:\proc\hadoop 添加PATH=%HADOOP
阅读全文
摘要:RESTful接口URL的格式: http://localhost:9200///[] 其中index、type是必须提供的。 id是可选的,不提供es会自动生成。 index、type将信息进行分层,利于管理。 index可以理解为数据库;type理解为数据表;id相当于数据库表中记录的主键,是唯一的。 #向store索引中添加一些书籍 curl -XPUT 'http://172.1...
阅读全文
摘要:第一种方式代码: 第二种方式代码: 关于第二种方式可以参考: http://blog.csdn.net/ligt0610/article/details/47311771
阅读全文
摘要:更多有用的例子和算子讲解参见: http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html
阅读全文
摘要:RemoteMessage.scala WorkerInfo.scala Worker.scala Master.scala 另外一个版本:http://www.cnblogs.com/DreamDrive/p/6736471.html
阅读全文
摘要:Boy.scala Girl.scala MissLeft.scala MissRight.scala MyPreDef.scala MrRight.scala
阅读全文
摘要:上代码: 另一个版本(自己加注释):http://www.cnblogs.com/DreamDrive/p/6740440.html RemoteMessage.scala WorkerInfo.scala Worker.scala Master.scala
阅读全文
摘要:1) 端口错 client = new TransportClient().addTransportAddress(new InetSocketTransportAddress(ipAddress, 9300)); 这里9300 写成9200的话会No node available 要是你连的不是本
阅读全文