随笔档案「2017年5月」 - 天之涯0204

ambari 2.5.0源码编译安装

摘要：参考：https://www.ibm.com/developerworks/cn/opensource/os-cn-bigdata-ambari/index.html Ambari 是什么 Ambari 的作用来就是创建、管理、监视 Hadoop 集群，但是这里的 Hadoop 是广义，指的是 Ha 阅读全文

posted @ 2017-05-22 14:46 天之涯0204 阅读(3503) 评论(1) 推荐(1)

linux（centeros）svn的安装

摘要：SVN linux搭建svn服务器参考：http://www.cnblogs.com/chaichuan/p/3758173.htmlSubversion(SVN) 是一个开源的版本控制系統, 也就是说 Subversion 管理随着时间改变的数据。这些数据放置在一个中央资料档案库 (reposi 阅读全文

posted @ 2017-05-20 10:22 天之涯0204 阅读(997) 评论(0) 推荐(0)

机器学习

摘要：定义机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途阅读全文

posted @ 2017-05-04 17:19 天之涯0204 阅读(363) 评论(0) 推荐(0)

算法思想整理

摘要：排序算法内部排序外部排序内部排序：数据全部在内存中进行排序外部排序：数据量太大，不能一次在内存中进行排序，因此，在排序的过程中需要使用到外部存储介质插入排序直接插入排序将一个数据插入到已经有序的序列中得到一个新的有序序列思路：从第二个元素开始进行插入排序希尔排序将序列分成多个子序列阅读全文

posted @ 2017-05-03 18:07 天之涯0204 阅读(236) 评论(0) 推荐(0)

lucene

摘要：全文检索全文检索是计算机程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找，类似于通过字典的检索字表查字的过程。全文检索（Full-Text Retrieval）是指以文本作为检索对象，找出含有指定词汇的文本。全面、准确和快速是阅读全文

posted @ 2017-05-03 09:39 天之涯0204 阅读(168) 评论(0) 推荐(0)

Spark-Streaming获取kafka数据的两种方式：Receiver与Direct的方式

摘要：简单理解为：Receiver方式是通过zookeeper来连接kafka队列，Direct方式是直接连接到kafka的节点上获取数据 Receiver 使用Kafka的高层次Consumer API来实现。receiver从Kafka中获取的数据都存储在Spark Executor的内存中，然后Sp 阅读全文

posted @ 2017-05-02 15:46 天之涯0204 阅读(8632) 评论(0) 推荐(2)

Spark Streaming整合logstash + Kafka wordCount

摘要：1、安装logstash，直接解压即可测试logstash是否可以正常运行只获取消息 2、编写logstash配置文件2、1在logstash目录下创建conf目录2、2在conf目录下创建文件logstash.conf,内容如下 logstash input: https://www.elas 阅读全文

posted @ 2017-05-02 14:55 天之涯0204 阅读(1416) 评论(0) 推荐(0)

Spark Streaming整合Flume + Kafka wordCount

摘要：flume配置文件 flume_to_kafka.conf kafka 1、启动kafka 2、创建spark topic 启动flume 测试是否可以正常消费到数据代码实现阅读全文

posted @ 2017-05-02 11:19 天之涯0204 阅读(1121) 评论(0) 推荐(0)

05 2017 档案

公告