摘要: 原文链接:https://segmentfault.com/a/1190000005083578 初学Scala的人都会被Seq的各种操作符所confuse。下面简单列举一下各个Seq操作符的区别。 4种操作符的区别和联系 :: 该方法被称为cons,意为构造,向队列的头部追加数据,创造新的列表。用 阅读全文
posted @ 2017-07-11 12:37 carleunderwood 阅读(269) 评论(0) 推荐(0) 编辑
摘要: Segment文件由两部分组成,分别为“.index”文件和“.log”文件,分别表示为segment索引文件和数据文件。这两个文件的命令规则为:partition全局的第一个segment从0开始,后续每个segment文件名为上一个segment文件最后一条消息的offset值,数值大小为64位 阅读全文
posted @ 2017-07-11 12:32 carleunderwood 阅读(192) 评论(0) 推荐(0) 编辑
摘要: 使用hive表时的方法: 使用外部客户端DbVisualizer连接hive表时要先启动hiveserver2。 hive --service hiveserver2 --hiveconf hive.server2.thrift.port=10000 或者HiveServer2提供了一个新的命令行工 阅读全文
posted @ 2017-07-11 12:31 carleunderwood 阅读(129) 评论(0) 推荐(0) 编辑
摘要: SequenceFile SequenceFile是Hadoop API 提供的一种二进制文件,它将数据以<key,value>的形式序列化到文件中。这种二进制文件内部使用Hadoop 的标准的Writable 接口实现序列化和反序列化。它与Hadoop API中的MapFile 是互相兼容的。Hi 阅读全文
posted @ 2017-07-11 11:48 carleunderwood 阅读(815) 评论(0) 推荐(1) 编辑
摘要: Hadoop发展简史 Hadoop 是Apache Lucene 创始人Doug Cutting 创建的, Lucene 是一个广泛使用的 文本搜索系统库。Hadoop 起源于Apache Nutch ,一个开源的网络搜索引擎, 它本 身也是Lucene 项目的一部分。 hadoop项目如下: Co 阅读全文
posted @ 2017-07-11 11:47 carleunderwood 阅读(143) 评论(0) 推荐(0) 编辑
摘要: Flume主要是一个代理。Flume 传输的数据的基本单位是 Event,如果是文本文件,通常是一行记录。flume有三个核心组件,主要是source,channel,sink。 通过这些组件,Event 可以从一个地方流向另一个地方。 Flume 使用事务性的方式保证传送Event整个过程的可靠性 阅读全文
posted @ 2017-07-11 11:46 carleunderwood 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2017-07-11 11:45 carleunderwood 阅读(167) 评论(0) 推荐(0) 编辑
摘要: 数据挖掘通常又称为数据中的知识发现(KDD),是自动 地或方便地提取代表知识的模式,这些模式隐藏于大型数据库,数据仓库,Web,其他大量信息库或数据流中。 作为一个多学科领域,数据挖掘从多个学科汲取营养。这些学科包括统计学,机器学习,模式识别,数据库技术,信息检索,网络科学,知识库系统,人工智能,高 阅读全文
posted @ 2017-07-11 11:43 carleunderwood 阅读(219) 评论(0) 推荐(0) 编辑
摘要: https://github.com/xubo245/SparkLearning 阅读全文
posted @ 2017-07-11 11:42 carleunderwood 阅读(78) 评论(0) 推荐(0) 编辑
摘要: 数据库 1. 连接Mysql 连接Mysql:格式: mysql -h主机地址 -u用户名 -p用户密码 键入命令mysql -u root -p,回车后提示你输密码 2. 退出Mysql exit回车 3.显示数据库 命令:mysql> show databases; 4. 创建数据库 命令:cr 阅读全文
posted @ 2017-07-11 11:41 carleunderwood 阅读(114) 评论(0) 推荐(0) 编辑
摘要: 串 2016年11月23日 16:52 串类型的定义 串(string)是由零个或多个字符组成的有限序列,一般记为 s = 'a1a2a3a4.....an'(n>= 0) s是串的名,单引号括起来的值是串的值;ai(1<=i<=n)可以是字幕数字或其他字符;串中n的长度称为串的长度。零个字符的串称 阅读全文
posted @ 2017-07-11 11:38 carleunderwood 阅读(120) 评论(0) 推荐(0) 编辑
摘要: A tree is a finite nonempty set of elements , it is an abstract model of hierarchical structure. Application:Organization chartsFile systemsProgrammin 阅读全文
posted @ 2017-07-11 11:37 carleunderwood 阅读(93) 评论(0) 推荐(0) 编辑
摘要: 基本概念和术语 2016年11月22日 9:24 数据是对客观事务的符号表示,在计算机科学中是指所有能输入到计算机中并被计算机程序处理的符号的总称。 数据元素(data element)是数据的基本单位,在计算机程序中通常作为一个整体进行考虑和处理。一个数据元素可以由若干数据项组成,数据项是数据的不 阅读全文
posted @ 2017-07-11 11:36 carleunderwood 阅读(135) 评论(0) 推荐(0) 编辑
摘要: 栈和队列 2016年11月22日 22:36 栈(stack)是后进先出的线性表(LIFO last in first out) #define STACK_INIT_SIZE = 100; #define STACKICREMENT 10; typedef struct { SElemType * 阅读全文
posted @ 2017-07-11 11:36 carleunderwood 阅读(77) 评论(0) 推荐(0) 编辑
摘要: (Linear list) 线性表 首先我们讨论线性结构,线性结构的特点是:在数据元素的非空有限集合中 线性表定义 线性表是由n个数据元素组成的有限序列 若将线性表记为(a1,…,ai-1,ai,ai+1,…an),则表中ai-1领先于ai,ai领先于ai+1,称ai-1是ai的直接前驱元素,ai+ 阅读全文
posted @ 2017-07-11 11:35 carleunderwood 阅读(115) 评论(0) 推荐(0) 编辑
摘要: 序章 定义 数据结构是一门研究非数值计算的程序设计问题中的操作对象,以及它们之间的关系和操作等相关问题的学科。 程序设计 = 数据结构 + 算法 序章 定义 数据结构是一门研究非数值计算的程序设计问题中的操作对象,以及它们之间的关系和操作等相关问题的学科。 程序设计 = 数据结构 + 算法 传统上, 阅读全文
posted @ 2017-07-11 11:26 carleunderwood 阅读(151) 评论(0) 推荐(0) 编辑