摘要:
创建kafka topic 注: partitions指定topic分区数,replication-factor指定topic每个分区的副本数 partitions分区数: partitions :分区数,控制topic将分片成多少个log。可以显示指定,如果不指定则会使用broker(server 阅读全文
摘要:
上篇文章介绍了推荐引擎算法在spark-shell中的操作,实际环境中我们不会仅仅运行一次, 更多的是一次编译多次运行,今天我们开始实验二,不过上次实验的笔录很有用哦。 一,处理数据。 def PrepareData(): (RDD[Rating], Map[Int, String]) = { va 阅读全文
摘要:
记录今天在机器学习方向的探索,单位的实验室环境用起来很舒服。赞。 记录我在机器学习领域的每一步成长。// 本次实验素材取自林大贵先生的大数据巨量分析和机器学习整合开发实战。 实验用数据源在文件页面下载。 Let's go。 假设有一个在线电影网站,会员付费在线观赏电影。公司希望运用大数据分析推荐引擎 阅读全文
摘要:
创建ListintRDD = sc.parallelize(List(1,2,3,4,5))过滤包含stringRDD.filter(_.contains("a")).collect()去重stringRDD.distinct.collect()RDD拆分val sRDD = intRDD.rand 阅读全文
摘要:
问题导读: 1.zookeeper在kafka的作用是什么? 2.kafka中几乎不允许对消息进行“随机读写”的原因是什么? 3.kafka集群consumer和producer状态信息是如何保存的? 4.partitions设计的目的的根本原因是什么? 一、入门 1、简介 Kafka is a d 阅读全文
摘要:
Ambari 常用的 REST API 介绍 Ambari 借鉴了很多成熟分布式软件的 API 设计。Rest API 就是一个很好地体现。通过 Ambari 的 Rest API,可以在脚本中通过 curl 维护整个集群。并且,我们可以用 Rest API 实现一些无法在 Ambari GUI 上 阅读全文
摘要:
在生产环境中很有可能有那么几个Region比较大,但是都运行在同一个Regionserver中。 这个时候就需要手动将region移动到负载低的Regionserver中。 步骤: 1、找到要移动的region,记录红框的id值,这个是唯一的region ID 2.查看RegionServer列表, 阅读全文
摘要:
jmap是JDK自带的一个工具,非常小巧方便,其支持参数如下: -heap 打印heap空间的概要,这里可以粗略的检验heap空间的使用情况。 jmap -heap PID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 阅读全文
摘要:
zookeeper.session.timeout 默认值:3分钟(180000ms) 说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServer会被Zookeeper从RS集群清单中移除,HMaster收到移除通知后,会对这台server负责的re 阅读全文
摘要:
Scala编程思想附录1的测试类。 package com.atomicscalaimport language.implicitConversionsimport java.io.FileWriterclass AtomicTest[T](val target:T) { val errorLog 阅读全文