摘要: KUDU开发 使用MapReduce、Spark或Impala,你可以读取Kudu表并将其写入HDFS KUDU API Kudu以结构化、强类型的方式存储数据,因此可以提供KUDU的SQL访问。 目前你可以Spark Sql来访问和操作数据。还可以使用Impala。Impala是Hadoop生态系 阅读全文
posted @ 2020-09-25 09:49 猫七的blog 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 为什么要使用云端? 当你要部署一个应用的多个副本时,每个副本要有自己的私有数据。 与虚拟机的区别 借助虚拟机你可以在单个主机运行Windows和Linux。虚拟机的缺点在于需要大量的磁盘空间。 比如Linux虚拟机至少需要一个处理核心和1GB内存。Windows虚拟机可能需要两个处理核心和4GB内存 阅读全文
posted @ 2020-09-25 08:13 猫七的blog 阅读(138) 评论(0) 推荐(0) 编辑
摘要: master服务器和tablet服务器 这些服务器是管理表的,而表又是tablet(分区)组成的。(分区)分散在各个tablet服务器上。 通常一个集群包含3个master服务器(为了保证部分服务器故障时,程序仍能提供服务) master服务器上有一个分区,这个分区保存了系统目录表的元数据。还有一个 阅读全文
posted @ 2020-09-24 23:55 猫七的blog 阅读(162) 评论(0) 推荐(0) 编辑
摘要: 行存储 行存储系统是以行的方式组织数据。行存储适合OLTP在线处理系统。 优点:数据写入更快。 不足,随着OLAP系统(在线分析系统)需求增多,数据写入和查询都不是关注点。变成了数据过滤,统计。 行存储举例 列存储 列存储以列的方式存储数据。 优点:有利于统计 不足:需要将每一列存储到对应的位置。 阅读全文
posted @ 2020-09-24 15:17 猫七的blog 阅读(398) 评论(0) 推荐(0) 编辑
摘要: Kudu介绍 需要实时分析应用场景下,便可能用到Kudu。 2.Kudu提供了更接近于RDBMS的功能和数据模型,提供类似于关系型数据库的存储结构来存储数据,允许用户以和关系型数据库相同的方式插入、更新、删除数据。 3.Kudu仅仅是一个存储层,然而它并不存储数据,而是依赖外部的Hadoop处理引擎 阅读全文
posted @ 2020-09-24 14:11 猫七的blog 阅读(2827) 评论(0) 推荐(1) 编辑
摘要: 进程 进程是程序运行实例,运行在计算机中的多个进程都被分配了一个称为进程ID的数字。 列出占用CPU最多的前5个进程: $ ps -eo comm,pcpu --sort -pcpu | head -5 comm:可执行文件名。 pcpu:cpu占用率。 top命令: top会列出CPU占用最高的进 阅读全文
posted @ 2020-09-21 17:18 猫七的blog 阅读(97) 评论(0) 推荐(0) 编辑
摘要: TCP/IP TCP/IP网络运作过程就是节点之间传递(parket)。每个分组包含了IP地址,相关应用程序端口号。 节点接收到分组时,它会查看自己是否就是该分组的目的地。 如果是,节点会检查端口号调用相应的应用程序来处理分组数据。 如果不是,节点会将分组发送到距离最终目的地更近的下一个节点。 DN 阅读全文
posted @ 2020-09-21 14:59 猫七的blog 阅读(213) 评论(0) 推荐(0) 编辑
摘要: 序列标注问题 给定一个序列x1x2x3....xn,列出序列中每个元素对应的标签y1y2y3.....yn问题。 应用场景:中文分词,词性标注,命名实体识别 中文分词:{B,M,E,S}:将一句话的每个字打上一个标签,B代表词首,M代表词中, E代表词尾,S代表单字 词性标注:给每个词语标注一个词性 阅读全文
posted @ 2020-09-20 12:43 猫七的blog 阅读(235) 评论(0) 推荐(0) 编辑
摘要: tar命令归档文件 tar可以将多个文件和文件夹打包为单个文件,同时还能保留所有的文件属性 示例一: $ tar -cf archive.tar file1 file2 file3 folder1 将file1,file2,file3,folder1归档到一个文件中。 示例二: $ tar -tf 阅读全文
posted @ 2020-09-19 13:35 猫七的blog 阅读(283) 评论(0) 推荐(0) 编辑
摘要: git: 修订版本控制系统 linux安装方式: sudo yum install git-all Windows系统安装: 去这个网址:https://git-scm.com/downloads 创建git仓库: $ git init git init命令会在当前工作目录下创建子目录.git并初始 阅读全文
posted @ 2020-09-14 16:03 猫七的blog 阅读(93) 评论(0) 推荐(0) 编辑