06 2019 档案
摘要:定义 在某些情况下,一个类的对象是有限且固定的,比如季节类,它只有 4 个对象;再比如行星类,目前只有 8 个对象。这种实例有限且固定的类,在 Python 中被称为枚举类。程序有两种方式来定义枚举类: 使用 使用 Enum 列出多个枚举值来创建枚举类 如下程序示范了直接使用 Enum 列出多个枚举
阅读全文
摘要:如果希望创建某一批类全部具有某种特征,则可通过 metaclass 来实现。使用 metaclass 可以在创建类时动态修改类定义。为了使用 metaclass 动态修改类定义,程序需要先定义 metaclass, metaclass 应该继承 type 类,并重写 __new__() 方法。下面程
阅读全文
摘要:获取字符串的长度 在 Shell 中获取字符串长度很简单,具体方法如下: ${#string_name} string_name 表示字符串名字。 字符串截取 shell 截取字符串通常有两种方式:从指定位置开始截取和从指定字符(子字符串)开始截取 从指定位置开始截取 从字符串左边开始计数: 如果想
阅读全文
摘要:数组 和其他编程语言一样,Shell 也支持数组。数组(Array)是若干数据的集合,其中的每一份数据都称为元素(Element)。Shell 并且没有限制数组的大小,理论上可以存放无限量的数据。和 C++、Java、C# 等类似,Shell 数组元素的下标也是从 0 开始计数。获取数组中的元素要使
阅读全文
摘要:修改内核参数 在/etc/sysctl.conf文件中添加如下配置(需要root权限)以下参数的默认值是在centos7下查看的fs.file-max = 6815744 //文件描述符总数,默认值:94121fs.aio-max-nr = 1048576 //最大并发io请求数,默认值:10485
阅读全文
摘要:Application application和Hadoop MapReduce类似,都是指用户编写的spark应用程序,其中包含了一个driver功能的代码和分布在集群中多个节点运行的executor代码。 Driver 使用driver这一概念的分布式框架很多,比如hive。spark中的dri
阅读全文
摘要:HiveQL与传统SQL区别 HiveQL是Hive的查询语言。与mysql的语言最接近,但还是存在于差异性,表现在:Hive不支持行级插入操作、更新操作和删除操作,不支持事物。 基本语法 数据库操作 # hadoop fs -ls /hive/warehouseFound 3 itemsdrwxr
阅读全文
摘要:基本的数据类型 Hive支持关系型数据中大多数基本的数据类型,同时也支持关系型数据库中很少出现的三种集合数据类型。 集合数据类型 Hive中的列支持使用struct、map、array集合数据类型,下表中的语法示例是调用的内置函数。 例如:创建表: 文本文件数据编码 下图表示Hive中默认的记录和字
阅读全文
摘要:查看命令选项 选项解释: usage: hive -d,--define <key=value> Variable subsitution to apply to hive commands. e.g. -d A=B or --define A=B --database <databasename>
阅读全文
摘要:1、优化文件系统,修改/etc/fstab 在defaults后面添加noatime,表示不记录文件的访问时间。 修改为: 如果不想重新启动操作系统使配置生效,那么应该执行: # mount -o remount /dev/mapper/centos-root # mount -o remount
阅读全文
摘要:配置参数: 1、dfs.nameservices 说明:为namenode集群定义一个services name 默认值:null 比如设置为:ns1 2、dfs.ha.namenodes.<dfs.nameservices> 说明:nameservice 包含哪些namenode,为各个namen
阅读全文
摘要:本地模式 环境介绍 一共三台测试机 master 192.168.4.91 slave1 192.168.4.45 slave2 192.168.4.96 操作系统配置 1、Centos7操作系统 2、防火墙,selinux都关闭(在学习的时候,基本都是关闭防火墙,生产环境,防火墙都是打开的,不仅有
阅读全文
摘要:Hadoop简介 Hadoop软件库是一个开源框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储。库本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用程序层的故障,从而在计算机集群之上提供高可用性服务,每个计算机
阅读全文
摘要:根据。方案最右侧一栏是一个8G VM的分配方案,方案预留1-2G的内存给操作系统,分配4G给Yarn/MapReduce,当然也包括了HIVE,剩余的2-3G是在需要使用HBase时预留给HBase的。 内存调优
阅读全文
摘要:<! done hive 调优(二)参数调优汇总 在hive调优(一) 中说了一些常见的调优,但是觉得参数涉及不多,补充如下 1.设置合理solt数 mapred.tasktracker.map.tasks.maximum 每个tasktracker可同时运行的最大map task数,默认值2。 m
阅读全文
摘要:hive 调优(一)coding调优 本人认为hive是很好的工具,目前支持mr,tez,spark执行引擎,有些大公司原来封装的sparksql,开发py脚本,但是目前hive支持spark引擎(不是很稳定,建议Tez先),所以离线还是用hive比较好。 先将工作中总结,以及学习其他人的hive优
阅读全文
摘要:1、执行过程失败,报 Container killed on request. Exit code is 143 如下图: 分析:造成这种原因是由于总内存不多,而容器在jvm中占比过高,修改tez-site.xml文件,添加如下配置: 2、ERROR [main] exec.TaskRunner:
阅读全文
摘要:官网: https://tez.apache.org/releases/0.9.0/tez-api-javadocs/configs/TezConfiguration.html
阅读全文
摘要:hive运行模式 hive on tez Tez是一个构建于YARN之上的支持复杂的DAG任务的数据处理框架。它由Hontonworks开源,它把mapreduce的过程拆分成若干个子过程,同时可以把多个mapreduce任务组合成一个较大的DAG任务,减少了mapreduce之间的文件存储,同时合
阅读全文
摘要:第一步:博客园里面点击设置。首先获取js权限。 要先获取js权限,并且管理员授权以后,才能正常使用。 第二步:在页脚代码里面插入如下代码: 借鉴:https://www.cnblogs.com/douzujun/p/10356169.html
阅读全文
摘要:在官网上对于这几种模式的介绍如下: 按Metastore数据库位置分: 1、本地/嵌入式Metastore数据库(Derby) 2、远程Metastore数据库(其他的关系型数据库,像mysql、oracle等) 按Metastore server 分为如下: 1、本地嵌入式Metastore服务
阅读全文
摘要:1、在当前服务器启动hiveserver2服务,远程客户端通过beeline连接 报错信息如下: 其实这个问题是由于jdbc协议地址写错造成的,在hive2之后少了个“:” 改成以下这个形式即可: 2、用户不被允许 (1)修改core-site.xml文件,加入如下选项: 上述的proxyuser后
阅读全文
摘要:一、mysqld组值设置: 二、client组 三、其他设置 借鉴:https://www.cnblogs.com/EasonJim/p/7158466.html
阅读全文
摘要:一、使用Kfaka自带的zookeeper服务。 1、下载Kafka,下载地址: http://kafka.apache.org/downloads 2、区分Kfaka版本: Scala 2.12 - kafka_2.12-2.2.1.tgz(asc,sha512) Kadka后面的 2.12是对应
阅读全文
摘要:<! done kafka入门:简介、使用场景、设计原理、主要配置及集群搭建(转) 问题导读: 1.zookeeper在kafka的作用是什么? 2.kafka中几乎不允许对消息进行“随机读写”的原因是什么? 3.kafka集群consumer和producer状态信息是如何保存的? 4.parti
阅读全文
摘要:转载于:https://www.cnblogs.com/liying123/p/7097806.html hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集
阅读全文
摘要:由于数据磁盘爆满,达到100%,导致journalnode宕掉,在启动journalnode以后,查看日志,提示Can't scan a pre-transactional edit log,这个时候namenode已经是不能正常启动了。 java.io.IOException: Can't sca
阅读全文
摘要:普通用户执行ansible,但是在远程需要root权限,这个时候执行ansible命令报如下错误: 经分析是由于sudo的时候,普通用户没有在sudoer文件 2、在playbook里面使用sudo认证 比如,sudo 到root - name: start standby rm shell: "l
阅读全文
摘要:基本环境:docker基于centos7 在docker里面安装ansible 不管是在root还是普通用户下执行 ansible all -m ping 都报如下错误: 172.20.1.1 | UNREACHABLE! => { "changed": false, "msg": "Failed
阅读全文
摘要:1、交互提示:使用关键字:vars_prompt 例:使用ansible的交互式功能创建用户和给定一个密码。 关键字vars_prompt常用选项说明: private:用户输入的值是否可见,当值为yes时,表示不可见,常用于密码,为no时,可见。 default:设置默认值,当不输入任何值时,使用
阅读全文
摘要:一、任务委托 默认情况下,ansible的所有任务都是在指定的机器上运行的,当在一个独立的群集环境中配置时,但是只想操作其中的某一台主机,或者在特定的主机上运行,此时就需要用到ansible的任务委托功能。 使用delegate_to关键字可以配置任务在指定的机器上执行,二其他的任务还是在hosts
阅读全文
摘要:ansible的变量定义可以在很多地方定义,如下: 1、命令行设置变量 命令行直接使用变量,在运行playboox的时候,使用--extra-vars或者-e选项指定额外的变量 也可以将变量写入到一个JSON或者yaml文件中,命令行通过导入文件来获取变量。 2、playboox中定义变量 (1)使
阅读全文
摘要:示例:安装nginx 注:在剧本编写完以后,可以使用--syntax-check检查剧本的语法是否有问题,使用--check或者-C来预执行剧本。 handlers的用处:一般是当修改某个配置文件的时候,通过handlers来执行某个任务。 一般情况下,handlers的执行需要在所以的tasks执
阅读全文
摘要:查看模块的功能和选项,使用ansible-doc命令 user模块 options: 示例: 场景1、新增用户。 需求描述:新增用户dba,使用BASH Shell,附加组为admins,dbagroup,家目录为/home/dba,注意:附加组必须为已经存在的组。 掌握技能点: (1)groups
阅读全文
摘要:一、Ansible 命令 1、Ansible 命令执行的方式有两种:Ad-Hoc、Ansible-playbooks,这两种方式没有本质的区别,Ad-Hoc用于临时执行命令;Ansible-playbooks可以理解为Ad-Hoc的集合,通过一定的规则编排在一起,也就是剧本。 2、Ansible通讯
阅读全文
摘要:ansible <pattern> -m <module_name> -a <arguments> 该功能主要针对Inventory的主机列表,案例如下: 1、ALL(全量匹配) 说明:匹配所有主机,all或者*号,两个功能相同,只是*号需要使用双引号引起来。 2、逻辑或(or)匹配 如希望对多个主
阅读全文