09 2023 档案
摘要:DEB 包 (Debian, Ubuntu 以及类似系统) dpkg -i package.deb 安装/更新一个 deb 包 dpkg -r package_name 从系统删除一个 deb 包 dpkg -l 显示系统中所有已经安装的 deb 包 dpkg -l | grep httpd 显示所
阅读全文
摘要:-- Hive里输入Hadoop命令get到本地 dfs -get '/my/demo/t2.txt' '/my/demo/t2.txt.bak'
阅读全文
摘要:select (distinct) *from studentwhere score>80group by classorder by agedistribute by col_list sort by col_listlimit 10
阅读全文
摘要:排序:order by: 全局排序, 只有一个 Reducer 所以慎用order by, 除非有过滤条件或limit之类的减少数据量sort by: 每个 Reduce 内部排序, 可以有多个Reducer分区 distribute by:分区是把数据分到不同的reducer上, hash%red
阅读全文
摘要:我计划接下来的三个月中利用课下时间去阅读,每月阅读一本书,并每月定时发表阅读读后感,并与每月的10、20、30号发布。 十月份阅读《代码阅读方法与实践》 十一月份阅读《软件方法》 十二月份阅读 《软件需求十步走》
阅读全文
摘要:1). 客户端Client,向远程的nn发起写入文件请求;2). nn会检查写入的文件是否已经存在,创建者是否有权限进行操作;3). 写入文件时,DFSOutputstream 将多个文件分成多个数据包,并写入内部队列;4). 然后开始以管道的形式将数据包写入所有副本中。数据包以流的形式写入第一个d
阅读全文
摘要:函数:UDF: 进一出一 UDAF: 聚合函数 UDTF: 炸裂函数 nvl(username, “xxx”) substring(str, index, length) case sex when ‘女’ then 1 else 0 end 多个函数嵌套组合: sum(if(xx
阅读全文
摘要:Nameode(主节点):主要存储元数据和提供访问;元数据包括三部分:1). 文件夹,文件树(目录结构,权限,大小,block数量);2). 文件与blockid映射(一个文件由哪些block组成)3). blockid与datanode映射(也就是datanode上有哪些block)**注意:**
阅读全文
摘要:学习了设计师应该考虑用户的迫切解决的问题 遇到一些问题,hmaster的闪退问题,一直无法解决。
阅读全文
摘要:查看文件内容 cat file1 从第一个字节开始正向查看文件的内容 tac file1 从最后一行开始反向查看一个文件的内容 more file1 查看一个长文件的内容 less file1 类似于 'more' 命令,但是它允许在文件中和正向操作一样的反向操作 head -2 file1 查看一
阅读全文
摘要:1). 解决超大文件,一台机器存储不下2). 可以在廉价的pc上存储3). 一次写入,多次读取4). 高吞吐写入5). 不支持修改,只支持追加 HDFS是为了处理大型数据的,主要是为达到到的数据吞吐量而设计的,这就看你要求以高延迟作为代价。
阅读全文
摘要:1. HDFS基本介绍a. HDFS是服务于Hadoop的分布式文件系统b. 块的概念HDFS也有块的概念,不过是更大的单元,默认是128MB。与单一磁盘上的文件系统相似,HDFS上的文件也被分为以块为大小的分块,作为单独的单元存储。 c. NameNode和DataNodeHDFS集群以Maste
阅读全文
摘要:学习了安装zookeeper的集群安装 学会了hadoop的命名以及ip地址的更改。
阅读全文
摘要:存放对象实例和数组,在虚拟机启动时创建 是垃圾收集器管理的主要区域,也被称为CG堆。收集器采用的是分代回收法,有新生代,老生代。新生代又包括Eden Space和From Survivor Space、To Survivor Space 如果堆中没有内存 完成实例分配,并且堆无法再扩展时,抛出Out
阅读全文
摘要:宏观上MapReducer的5个执行步骤:1). input: 获取输入数据进行分片作为map的输入 ;2). map:map过程对某种输入格式的一条记录解析成一条或多条记录;3). shuffle:数据混洗,描述着数据从map task输出到reduce task输入的过程。如果没有reducer
阅读全文