摘要: 原文链接:https://segmentfault.com/a/1190000005083578 初学Scala的人都会被Seq的各种操作符所confuse。下面简单列举一下各个Seq操作符的区别。 4种操作符的区别和联系 :: 该方法被称为cons,意为构造,向队列的头部追加数据,创造新的列表。用 阅读全文
posted @ 2017-07-11 12:37 carleunderwood 阅读(271) 评论(0) 推荐(0) 编辑
摘要: Segment文件由两部分组成,分别为“.index”文件和“.log”文件,分别表示为segment索引文件和数据文件。这两个文件的命令规则为:partition全局的第一个segment从0开始,后续每个segment文件名为上一个segment文件最后一条消息的offset值,数值大小为64位 阅读全文
posted @ 2017-07-11 12:32 carleunderwood 阅读(194) 评论(0) 推荐(0) 编辑
摘要: 使用hive表时的方法: 使用外部客户端DbVisualizer连接hive表时要先启动hiveserver2。 hive --service hiveserver2 --hiveconf hive.server2.thrift.port=10000 或者HiveServer2提供了一个新的命令行工 阅读全文
posted @ 2017-07-11 12:31 carleunderwood 阅读(130) 评论(0) 推荐(0) 编辑
摘要: SequenceFile SequenceFile是Hadoop API 提供的一种二进制文件,它将数据以<key,value>的形式序列化到文件中。这种二进制文件内部使用Hadoop 的标准的Writable 接口实现序列化和反序列化。它与Hadoop API中的MapFile 是互相兼容的。Hi 阅读全文
posted @ 2017-07-11 11:48 carleunderwood 阅读(823) 评论(0) 推荐(1) 编辑
摘要: Hadoop发展简史 Hadoop 是Apache Lucene 创始人Doug Cutting 创建的, Lucene 是一个广泛使用的 文本搜索系统库。Hadoop 起源于Apache Nutch ,一个开源的网络搜索引擎, 它本 身也是Lucene 项目的一部分。 hadoop项目如下: Co 阅读全文
posted @ 2017-07-11 11:47 carleunderwood 阅读(147) 评论(0) 推荐(0) 编辑
摘要: Flume主要是一个代理。Flume 传输的数据的基本单位是 Event,如果是文本文件,通常是一行记录。flume有三个核心组件,主要是source,channel,sink。 通过这些组件,Event 可以从一个地方流向另一个地方。 Flume 使用事务性的方式保证传送Event整个过程的可靠性 阅读全文
posted @ 2017-07-11 11:46 carleunderwood 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2017-07-11 11:45 carleunderwood 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 数据挖掘通常又称为数据中的知识发现(KDD),是自动 地或方便地提取代表知识的模式,这些模式隐藏于大型数据库,数据仓库,Web,其他大量信息库或数据流中。 作为一个多学科领域,数据挖掘从多个学科汲取营养。这些学科包括统计学,机器学习,模式识别,数据库技术,信息检索,网络科学,知识库系统,人工智能,高 阅读全文
posted @ 2017-07-11 11:43 carleunderwood 阅读(223) 评论(0) 推荐(0) 编辑
摘要: https://github.com/xubo245/SparkLearning 阅读全文
posted @ 2017-07-11 11:42 carleunderwood 阅读(79) 评论(0) 推荐(0) 编辑
摘要: 数据库 1. 连接Mysql 连接Mysql:格式: mysql -h主机地址 -u用户名 -p用户密码 键入命令mysql -u root -p,回车后提示你输密码 2. 退出Mysql exit回车 3.显示数据库 命令:mysql> show databases; 4. 创建数据库 命令:cr 阅读全文
posted @ 2017-07-11 11:41 carleunderwood 阅读(116) 评论(0) 推荐(0) 编辑