05 2017 档案
摘要:参考:https://www.ibm.com/developerworks/cn/opensource/os-cn-bigdata-ambari/index.html Ambari 是什么 Ambari 的作用来就是创建、管理、监视 Hadoop 集群,但是这里的 Hadoop 是广义,指的是 Ha
阅读全文
摘要:SVN linux搭建svn服务器参考:http://www.cnblogs.com/chaichuan/p/3758173.htmlSubversion(SVN) 是一个开源的版本控制系統, 也就是说 Subversion 管理随着时间改变的数据。 这些数据放置在一个中央资料档案库 (reposi
阅读全文
摘要:定义 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途
阅读全文
摘要:排序算法 内部排序 外部排序 内部排序:数据全部在内存中进行排序外部排序:数据量太大,不能一次在内存中进行排序,因此,在排序的过程中需要使用到外部存储介质 插入排序 直接插入排序 将一个数据插入到已经有序的序列中得到一个新的有序序列 思路:从第二个元素开始进行插入排序 希尔排序 将序列分成多个子序列
阅读全文
摘要:全文检索 全文检索是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找,类似于通过字典的检索字表查字的过程。 全文检索(Full-Text Retrieval)是指以文本作为检索对象,找出含有指定词汇的文本。全面、准确和快速是
阅读全文
摘要:简单理解为:Receiver方式是通过zookeeper来连接kafka队列,Direct方式是直接连接到kafka的节点上获取数据 Receiver 使用Kafka的高层次Consumer API来实现。receiver从Kafka中获取的数据都存储在Spark Executor的内存中,然后Sp
阅读全文
摘要:1、安装logstash,直接解压即可 测试logstash是否可以正常运行 只获取消息 2、编写logstash配置文件2、1在logstash目录下创建conf目录2、2在conf目录下创建文件logstash.conf,内容如下 logstash input: https://www.elas
阅读全文
摘要:flume配置文件 flume_to_kafka.conf kafka 1、启动kafka 2、创建spark topic 启动flume 测试是否可以正常消费到数据 代码实现
阅读全文
浙公网安备 33010602011771号