金融应用系统上线部署实施方案 AIX P570 + EMC DMX4-950

应用系统（组件）上线部署实施方案（自己的一些记录，看不清楚勿喷）

假设：使用的是2台物理机(aix P570)形成双机集群和一个EMC存储阵列，WEB AP DB都在一台服务器上

1 机房要求

无电磁干扰、空气污染、易燃物、水灾。空间足够、承重符合要求、温度湿度要求等

2 HMC

HMC 和2台服务器处于同一个机架，通过一台交换机同2台服务器连接。

在HMC中设置2个服务器分区（LPAR），分区设置如下：

服务器分2为LPAR1和LPAR2，每个分区拥有一半CPU、不到一半的内存（由于逻辑分区的内存需要有浪费一定的空间作为内存table，所以不能完全使用内存）,2块HBA（required），3块网卡（required），4块硬盘（required），1块2-por rs232串口卡（required），1块scsi卡（desired，用来连接外置磁带机），1块Other Mass Storage Controller（desired,IDE光驱）

3 服务器

插入光盘，进行安装系统和补丁，注意设置各系统文件的空间大小，将OS安装到一块硬盘上。

安装powerHA。

网络设置,设置好所有网卡的IP，其中2块网卡设置成心跳IP（两个LAN用交叉线直连）。

设置信任关系 vi /etc/hosts

4 存储交换机

将2台服务器的光纤卡端口连接到存储交换机上,先用类似于VLAN的技术将不同应用和存储隔离，在利用配置存储交换机实现硬件的Zoning划分，即让不同的服务器访问不同的存储空间，避免相互干扰。

5 存储

一般是一个系统柜加多个存储柜，先开存储柜，再开系统柜，确定磁盘卷的保护方式（RAID0+1 或者RAID5），然后划分外部使用的LUN、盘锁和内部管理用LUN。每个LUN都有一个ID。

使用Solution Enabler 软件分配LUN给服务器，确认服务器是否连上了存储。

在主机上安装EMC ODM EMC存储驱动

在主机上安装存储多路径软件 POWERPATH （负载均衡、高可用）

Powermt config

主机名称	配置类型	空间编号	空间用途描述	lun 数量	大小合计	位置	用途
A & B		1	数据存储	3		共享存储	数据库文件
		2	应用空间	1		共享存储	应用程序、流水、文件日志
		3	锁盘	1	100M	共享存储	mc/sg锁盘

6 服务器配置

设置WEB AP DB服务器的用户、组。

将存储空间挂到上面新增的用户目录下。

Mksssaraid 几块pdisk硬盘创建raid5，变为逻辑磁盘hdisk2

Mkvg 在hdisk2上建立datavg

Mklv 在datavg上建议一个日志lv，建立一个datalv

Crfs 在datalv上建立文件系统 /home/db等

检测卷组和文件系统 varyonvg fsck mount

在备份服务器上导入共享datavg importvg –L datavg hdisk2

内置的2块硬盘做OS镜像。

设置各类服务开关

系统参数设置，设置最大进程数。

中间件挂在到本地硬盘，数据库和应用挂载到存储上。

7 POWERHA （HP叫 MC/SERVICE GUARD双机集群）

作为双机系统的两台服务器（主机A和B）同时运行Ha软件

服务器除正常运行自机的应用外，同时又作为对方的备份主机

两台主机系统（A和B）在整个运行过程中，通过 “心跳线”相互监测对方的运行情况（包括系统的软硬件运行、网络通讯和应用运行情况等）

一旦发现对方主机的运行不正常（出故障）时，故障机上的应用就会立即停止运行，本机（故障机的备份机）就会立即在自己的机器上启动故障机上的应用，把故障机的应用及其资源（包括用到的IP地址和磁盘空间等）接管过来，使故障机上的应用在本机继续运行

应用和资源的接管过程由Ha软件自动完成，无需人工干预

当两台主机正常工作时，也可以根据需要将其中一台机上的应用人为切换到另一台机(备份机)上运行，这个应用是将主机备机指向同一块存储空间，正常情况下备机是接受应用请求的。

如果主机发生故障的处理流程是：

1、备机守护进程cmcld检测到心跳超时

2、备机抢占存储上的仲裁盘，进行重组集群

3、备机上启动运行包，恢复应用访问（切换时间就是启动脚本的执行时间）

1、在每个节点上都安装powerha

2、在主节点上配置 mitty hacmp，设置集群名称，加入节点2，配置集群网络，创建rhosts文件，导入到节点2

3、将主节点集群配置环境传给节点2

4、主备节点创建服务器启停脚本， /usr/ha/start 内容无非就是启动数据库，应用等。加入到集群配置中

5、给集群设定资源，包括VG 文件系统，并做同步到节点2

6、验证，启动节点 smitty clstart

9 数据库安装 Informix 为例

9.1 安装数据库

进入informix根目录，su

./installclientsdk

./RUN_as_root.clientsdk

./ids_install

对 onconfig.clr进行参数配置

编译sqlhosts文件，主要配置主机名，端口名，协议等

配置/etc/service 将端口的域名解析为数字

9.2 创建数据库

Oninit –ivy 进入初始化配置

创建数据库

Onspaces –c –d phydbs /home/db/Informix/**chunk 创建物理日志

Onspaces –c –d logdbs …… 创建逻辑日志

Onspaces –c –d **dbs …… 创建数据库

Onparams –a dlogdbs –s 50000 将逻辑日志划分为50m一个

9.3 在备机上安装数据库，分别在主节点和备用节点编写数据库启动和关闭脚本。

都位于/powerha/下

10 安装并配置中间件

中间件和数据库主要应该了解调优和配置维护，安装就略了。一般为 tuxedo weblogic

主机配置浮动IP（业务可识别的IP，集群软件设置的，非实际IP）

这个笔记设计的东西已经算是比较老了，但是现在相信多数银行还在用，但是发展趋势是虚拟化，虚拟化的机器申请一般是通过一些软件，例如vmware的vcenter，相对来说，要比物理机器的安装要简单。推荐虚拟化云计算的一本入门书《云计算：从基础架构到最佳实践》相信看完之后，对虚拟化和云计算里面还入门的讲了下大数据，都会有一定的了解。

另外通过oracle rac asm 可以完全取代powerha。

通过powervm下也可以使用powerha。

每个应用都不一样，这里就不举例了。

附 AIX运维基础：

系统故障] AIX操作系统下应用系统的维护与性能优化

AIX, 性能优化

一、ＡＩＸ系统数据安全措施

　　在ＩＢＭ小型机硬件配置期间，就应该考虑数据的安全性，系统资源的配置要满足容错处理的要求。主要应考虑以下几点：

　　①生产主机发生硬件故障后，备机可以马上自动接管应用系统；

　　②提高操作系统的硬件冗余，尽量减少单点故障对系统的影响；

　　③加强系统备份，减少系统版本升级造成的影响。

　　针对以上要求，可以采取一些安全措施，主要是硬件资源的冗余备份、系统软件和应用软件的合理分布以及高可靠性集群软件的使用。我们的经验是：把ＡＩＸ操作系统和ＨＡＣＭＰ（ＨｉｇｈＡｖａｉｌａｂｉｌｉｔｙＣｌｕｓｔｅｒＭｕｌｔｉ－Ｐｒｏｃｅｓｓｉｎｇ）软件安装在ｒｏｏｔｖｇ上，因为ｒｏｏｔｖｇ损坏，系统将无法运行，即使通过备份磁带恢复，也会造成系统停机。因此在磁盘空间充裕的情况下，可考虑对ｒｏｏｔｖｇ作镜像。具体做法是将主机的两块内置硬盘做ｒｏｏｔｖｇ镜像，这样可提高系统的安全性，防止单块硬盘损坏对系统的影响，即使内置硬盘坏了一块，系统仍可正常运行。在建立ｒｏｏｔｖｇ镜像时，应尽量使用连接在不同ＳＣＳＩ上的硬盘，以做到负载均衡。另外，为提高系统的容错能力，可对磁盘阵列上的硬盘进行镜像配置（ＲＡＩＤ０）或ＲＡＩＤ５冗余配置，配置为ｄａｔａｖｇ，在上面安装数据库和应用程序。为提高节点可靠性，可搭建ＨＡＣＭＰ集群环境，做到双机热备，即在２台互为备份的主机上配置ＨＡＣＭＰ参数，满足系统热备要求。在日常操作方面，要做好系统备份工作，定期对生产机做两个或两个以上的介质备份。

　　１．ｒｏｏｔｖｇ的配置

　　将ｈｄｉｓｋ０和ｈｄｉｓｋ１做成ｍｉｒｒｏｒ，配置为ｒｏｏｔｖｇ。

　　①把ｈｄｉｓｋ０、ｈｄｉｓｋ１加到ｒｏｏｔｖｇ：ｓｍｉｔｔｙｅｘｔｅｎｔｖｇｈｄｉｓｋ１、ｈｄｉｓｋ０ →ｒｏｏｔｖｇ。

　　②做ｍｉｒｒｏｒ：ｍｉｒｒｏｒｖｇ－ｃ２ｒｏｏｔｖｇ。

　　③在ｈｄｉｓｋ０、ｈｄｉｓｋ１上创建ｂｏｏｔＩＭＡＧＥ：ｂｏｓｂｏｏｔ－ａｄｈｄｉｓｋ０，ｂｏｓｂｏｏｔ－ａｄｈｄｉｓｋ１。

　　④改变启动设备的顺序：ｂｏｏｔｌｉｓｔ－ｍｎｏｒｍａｌｈｄｉｓｋ０，ｈｄｉｓｋ１ｃｄ０

　　２．ＨＡＣＭＰ工作原理

　　ＨＡＣＭＰ主要是对群集（ｃｌｕｓｔｅｒ）资源的管理，根据应用复杂程度和配置的不同，其群集资源的接管时间在３０秒到３００秒不等，完全不需要人工干预。一个群集中的资源通常包括：应用程序、硬盘、卷组（ＶＧ）、文件系统、ＮＦＳ文件系统、ＩＰ地址等。资源分属三类资源组（ＲｅｓｏｕｒｃｅＧｒｏｕｐ）：层递式（Ｃａｓｃａｄｉｎｇ）、替换式（Ｒｏｔａｔｉｎｇ）、同时存取式（Ｃｏｎｃｕｒｒｅｎｔ）。不同类型的资源组对应不同的接管方式。一个群集中可以有几个资源组，它们可以分别是不同类型，因此，资源接管的方式可以多种多样，配置十分灵活。

　　我们一般采用的是层递式方式，即热备份工作方式，其工作原理是：ＮｏｄｅＡ和ＮｏｄｅＢ都是资源组ａ的成员，该资源组ａ被设置成层递式方式，ＮｏｄｅＡ对其拥有最高优先级。因此ＮｏｄｅＡ在群集中处于ａｃｔｉｖｅ状态时，它会控制资源组ａ中的所有资源，此时ＮｏｄｅＢ处于闲置（ｉｄｌｅ）状态，仅当ＮｏｄｅＡｄｏｗｎ掉时，ＮｏｄｅＢ才会接管资源组ａ，一旦ＮｏｄｅＡ重新加入群集，ＮｏｄｅＢ将释放资源组ａＮｏｄｅＡ重新取得控制权。ＮｏｄｅＢ发生任何故障，不会造成任何影响。

　　二、ＡＩＸ系统维护经验

　　１．故障信息的收集

　　收集故障信息对于判断、诊断故障原因，修复系统非常重要。我们通过检查系统错误报告ｅｒｒｏｒｌｏｇ、发给ｒｏｏｔ用户的错误报告ｍａｉｌ和检查ｈａｃｍｐ．ｏｕｔｓｍｉｔ．ｌｏｇｂｏｏｔ．ｌｏｇ等内容来判断系统是否发生故障，根据故障信息进行相应的处理。

　　（１）系统故障记录

　　ｅｒｒｄｅｍｏｎ进程在系统启动时自动运行，记录包括硬件、软件及其他操作信息，故障记录文件为/ｖａｒ/ａｄｍ/ｒａｓ/ｅｒｒｌｏｇ，可备份下来或拷贝到别的机器上分析，使用ｅｒｒｐｔ命令（普通用户权限也可使用）。

　　＃ｅｒｒｐｔ｜ｍｏｒｅ列出简短出错信息

　　＃ｅｒｒｐｔ－ｄＨ列出所有硬件出错信息

　　＃ｅｒｒｐｔ－ｄＳ列出所有软件出错信息

　　＃ｅｒｒｐｔ－ａｊＥＲＲＯＲ＿ＩＤ列出详细出错信息

　　（２）控制面板上的ＬＥＤ代码

　　（３）ＳＭＳ（ＳｙｓｔｅｍＭａｎａｇｅｍｅｎｔＳｅｒｖｉｃｅ）故障记录

　　当主控台出现键盘图标后（ＬＥＤ显示“Ｅ１Ｆ１时”）按１键。选择“Ｕｔｉｌｉｔｉｅｓ”，选择“ＥｒｒｏｒＬｏｇ”，抄下８位故障代码。

　　（４）Ｍａｉｌ检查

　　系统出现故障后会向ｒｏｏｔ用户发ｍａｉｌ，报告出错信息。通常系统出现故障后没有进行检查修复，系统还会定时以ｍａｉｌ方式提醒ｒｏｏｔ用户。

　　（５）运行故障诊断程序

　　对系统硬件进行检查和诊断，当发现有硬件故障时应立即使用ｄｉａｇ。

　　＃ｄｉａｇ

　　＞选高级诊断（ＡｄｖａｎｃｅｄＤｉａｇｎｏｓｔｉｃ）

　　＞选问题诊断（ＰｒｏｂｌｅｍＤｅｔｅｒｍｉｎａｔｉｏｎ）或选系统检查（ＳｙｓｔｅｍＶｅｒｉｆｉｃａｔｉｏｎ）

　　ｄｉａｇ运行后会给出ＳＲＮ代码、故障设备名称及百分比数、地址代码等。

　　（６）其他用于收集系统信息的命令

　　ｌｓｄｅｖ－Ｃ系统设备信息

　　ｌｓｐｖ查看物理卷信息

　　ｌｓｖｇ查看卷组信息

　　ｌｓｌｐｐ查看文件组信息

　　ｌｓａｔｔｒ查看设备参数设置

　　ｌｓｃｆｇ查看ＶＰＤ（ＶｉｒｔｕａｌＰｒｏｄｕｃｔＤａｔａ）信息

　　２．系统硬件故障定位

　　ＩＢＭ小型机硬件故障定位方法包括小型机机柜上的显示面板上的Ｃｈｅｃｋｐｏｉｎｔｓ信息，ＥｒｒｏｒＣｏｄｅ和ＳＲＮｓ。Ｃｈｅｃｋｐｏｉｎｔｓ检查点是系统加电ＣＭＯＳ初始化程序（ＩＰＬ，ＩｎｉｔｉａｌＰｒｏｇｒａｍＬｏａｄ）运行后显示在机柜的显示面板上一系列信息。

　　ＩＰＬ流程如下：当系统加电后，自动进入ＩＰＬ流程，ＩＰＬ流程包括４个步骤，

　　①ＳｅｒｖｉｃｅＰｒｏｃｅｓｓｏｒ的初始化，始于系统加电，直到ＯＫ显示在机柜上的显示面板上为止。这个步骤会显示８ｘｘｘ或９ｘｘｘｃｈｅｃｋｐｏｉｎｔｓ代码。

　　②由ＳｅｒｖｉｃｅＰｒｏｃｅｓｓｏｒ引导的硬件初始化，始于按下机柜上的白色电源开关。这个步骤会显示９ｘｘｘｃｈｅｃｋｐｏｉｎｔｓ。“９１ＦＦ”是最后的代码，标志着第３步的开始。

　　③系统固件的初始化，一个系统处理器接管控制并继续初始化系统资源，这个步骤会显示Ｅｘｘｘ。“Ｅ１０５”是最后的代码，标志着第４步骤ＡＩＸ启动的开始。在这个过程中还会显示各种位置码（位置码代表着系统的每一个部分）。

　　④ＡＩＸ启动，当ＡＩＸ开始启动时，显示面板上的代码为０ｘｘｘ，同时位置码会出现在第二行。当ＡＩＸ的登录窗口出现在控制台上时，第４步骤结束，同时显示面板上再无任何信息显示。

　　当系统运行发现错误时，ＳＲＮｓ码（Ｓｅｒｖｉｃｅｒｅｑｕｅｓｔｎｕｍｂｅｒｓ，服务请求码）会以ｘｘｘ－ｘｘｘ的形式显示在显示面板上，同时在ＡＩＸ的ｅｒｒｏｒｌｏｇ中也会进行登记；当ＳＳＡ磁盘柜出现故障时，在磁盘柜前面板的液晶显示屏上会显示相应的ＳＲＮｓ，同时黄色的显示灯会闪动，在ＡＩＸ的ｅｒｒｏｒｌｏｇ中会登记相应错误信息，在出现问题后记录下代码，并告之ＩＢＭ公司解决。

　　３．软件问题处理

　　软件故障情况错综复杂，下面列举几个常见的故障处理方法。

　　（１）文件系统空间不够

　　查看有没有“满”的文件系统。特别是/、/ｖａｒ、/ｔｍｐ，不要超过９０％。文件系统满可导致系统不能正常工作，尤其是ＡＩＸ的基本文件系统。如/ 根文件系统满则会导致用户不能登录。用ｄｆ－ｋ查看。

　　＃ｄｆ－ｋ查看ＡＩＸ的基本文件系统

　　除/ｕｓｒ文件系统，其他文件系统都不应太满，一般不超过８０％。

　　处理方法１：删除垃圾文件

　　＃ｄｕ－ｓｋ｜ｓｏｒｔ－ｒｎ｜ｈｅａｄ

　　查找出当前目录下占空间最大的子目录，逐层往下直到找出占空间最大的文件（要区分哪些目录是文件系统的ｍｏｕｎｔｐｏｉｎｔ，哪些是文件系统的子目录）。删除文件，释放空间。有时删除文件后空间并不马上释放，这是由于删除的文件正被某个程序打开。只有当这个程序停止后，空间才释放，有时甚至需要重启系统。

　　处理方法２：增加文件系统大小

　　＃ｓｍｉｔｔｙｃｈｊｆｓ

　　只要卷组ＶＧ中有剩余空间，文件系统可以在任何时候加大。

　　（２）检查文件系统的完整性

　　＃ｕｍｏｕｎｔｆｉｌｅｓｙｓｔｅｍ＿ｎａｍｅ

　　＃ｆｓｃｋ－ｙｆｉｌｅｓｙｓｔｅｍ＿ｎａｍｅ

　　注意：文件系统必须先ｕｍｏｕｎｔ，再做检查和修复，否则将导致未知的后果。

　　（３）查看卷组信息

　　查看是否有“ｓｔａｌｅ”状态的逻辑卷。若有，用ｓｙｎｃｖｇ命令修复。

　　（４）检查内存交换区使用率

　　检查使用率是否超过７０％，若超过则用ｃｈｐｓ－ｓＸｐｇｎａｍｅ增加Ｘ个ＰＰ或用ｍｋｐｓ－ａ－ｎ－ｓＸｍｙｖｇ在ｍｙｖｇ上增加一个ＰＰ数为Ｘ的内存交换区。

　　（５）小型机内存泄漏问题

　　小型机出现内存泄漏，即系统或应用进程无法将使用过的内存释放，使可用内存的容量逐渐减少。如果可用内存降到某最小值将造成系统或应用程序无法ＦＯＲＫ子进程，就会造成系统瘫痪。通常我们可以用ｐｓ和ｓａｒ命令来查看小型机内存和ＣＰＵ占用率的大概情况以及各进程的内存和ＣＰＵ占用率的发展趋势。使用ｐｓ命令，可查看内存和ＣＰＵ占用率的基本情况。找出其中占用内存数不断变大的进程，这个进程可能就已经发生了内存泄漏。

　　４．ＩＢＭＨＡＣＭＰ双机热备系统的管理和维护

　　（１）ＨＡＣＭＰ双机系统的启动

　　以ｒｏｏｔ用户身份分别进入系统各节点，执行＃ｓｍｉｔｃｌｓｔａｒｔ命令。

　　（２）ＨＡＣＭＰ双机系统的关闭

　　以ｒｏｏｔ用户身份分别进入系统各节点，执行＃ｓｍｉｔｃｌｓｔｏｐ命令。

　　（３）查询ＨＡＣＭＰ双机系统的状态

　　在双机系统的运行中，操作员只有知道双机系统的当前状态，才有可能对双机系统出现的异常情况进行恢复处理，保证双机系统的高可用性和高容错性。查询ＨＡＣＭＰ双机系统的状态，以ｒｏｏｔ用户身份进入需要查询的节点，用＃ｌｓｓｒｃ－ｇｃｌｕｓｔｅｒ命令检查ＨＡＣＭＰ双机软件在该节点是否已启动，系统显示３个ａｃｔｉｖｅ的信息，则说明ＨＡＣＭＰ双机软件已正常启动。

　　在确认双机软件ＨＡＣＭＰ正常启动的情况下，在命令行执行＃ /ｕｓｒ/ｓｂｉｎ/ｃｌｕｓｔｅｒ/ｃｌｓｔａｔ－ａ命令查看双机系统的当前状态。

　　５．网络故障处理

　　（１）网络不通的诊断过程

　　ｉｆｃｏｎｆｉｇ查看网卡是否启动（ｕｐ）；ｎｅｔｓｔａｔ－ｉ查看网卡状态；Ｉｅｒｒｓ/Ｉｐｋｔｓ和Ｏｅｒｒｓ/Ｏｐｋｔｓ是否＞１％；ｐｉｎｇ本机网卡地址；ｐｉｎｇ其他机器地址，如不通，在其机器上用ｄｉａｇ检测网卡是否有问题。

　　在同一网中，子网掩码应一致。

　　（２）网络配置的基本方法

　　 ①如需修改网络地址、主机名等，一定要用ｃｈｄｅｖ命令。

　　＃ｃｈｄｅｖ－ｌｉｎｅｔ０－ａｈｏｓｔｎａｍｅ＝ｍｙｈｏｓｔ

　　＃ｃｈｄｅｖ－ｌｅｎ０－ａｎｅｔａｄｄｒ＝＇１１２．０．１５．１＇－ａｎｅｔｍａｓｋ＝２５５．２５５．２５５．０＇

　　 ②查看网卡状态：＃ｌｓｄｅｖ－Ｃｃ－ｉｆ

　　 ③确认网络地址：＃ｉｆｃｏｎｆｉｇｅｎ０

　　 ④启动网卡：＃ｉｆｃｏｎｆｉｇｅｎ０ｕｐ

　　 ⑤配置路由，有两种方式加入路由：

　　ａ．永久路由

　　＃ｃｈｄｅｖ－ｌｉｎｅｔ０－ａｒｏｕｔｅ＝＇１１２．１．１５．２＇，＇１１２．０．１５．２５４＇

　　ｂ．临时路由

　　＃ｒｏｕｔｅａｄｄ１１２．１．１５．２１１２．０．１５．２５４

　　用命令ｎｅｔｓｔａｔ－ｒｎ查看路由表

　　６．ＩＢＭ公司的巡检流程

　　ＩＢＭ公司的巡检流程，对我们日常维护应重点关注的事项有所帮助，大家可以借鉴一下。

　　（１）检查系统硬件情况：设备故障灯是否亮。

　　（２）系统错误报告。

　　（３）检查是否有发给ｒｏｏｔ用户的错误报告。

　　（４）检查ｈａｃｍｐ．ｏｕｔ，ｓｍｉｔ．ｌｏｇ，ｂｏｏｔ．ｌｏｇ。

　　（５）关键系统的文件使用率不大于８０％。

　　（６）逻辑卷有否ｓｔａｌｅ。

　　（７）内存交换区使用率是否超过７０％。

　　（８）内存交换区的大小是否为物理内存的１．５倍。

　　（９）检查备份情况（是否有系统备份、用户数据备份，磁带机是否需要清洗）。

　　（１０）检查通信设置（网卡、ＩＰ、路由表、ｐｉｎｇ、/ｅｔｃ/ｈｏｓｔｓ、ＤＮＳ设置等）。

　　（１１）是否有数据保护方式如ＲＡＩＤ１０/ＲＡＩＤ５是否有ＨｏｔＳｐａｒｅ。

　　（１２）系统ＤＵＭＰ设置是否正确。

　　（１３）检查系统参数是否正确。

　　（１４）检查ｒｏｏｔｖｇ是否镜像。

　　（１５）检查ｅｒｒｄｅｍｏｎｓｒｃｍｓｔｒ是否正常运行。

　　（１６）检查机房环境（电压、湿度）。

　　（１７）检查系统性能：是否存在性能瓶颈ｔｏｐａｓｖｍｓｔａｔ。

　　（１８）检查补丁程序（ＰＴＦ）、微码（是否需要升级）。

　　（１９）进行ＨＡＣＭＰ测试：ＣｌｕｓｔｅｒＶｅｒｉｆｉｃａｔｉｏｎ。

　　（２０）进行系统硬件诊断：运行故障诊断程序（Ｄｉａｇｎｏｓｔｉｃ）。

　　三、ＡＩＸ系统参数优化

　　ＡＩＸ内核属于动态内核，核心参数基本上可以自动调整，因此当系统安装完毕后应考虑修改的参数一般包括以下内容。

　　１．系统用户的最大登录数ｍａｘｌｏｇｉｎ

　　ｍａｘｌｏｇｉｎ的具体大小可根据用户数设定，可以通过ｓｍｉｔｔｙｃｈｌｉｃｅｎｓｅ命令修改，该参数记录在/ｅｔｃ/ｓｅｃｕｒｉｔｙ/ｌｏｇｉｎ．ｃｆｇ文件中，修改在系统重新启动后生效。

　　２．系统用户的ｌｉｍｉｔｓ参数

　　这些参数位于/ｅｔｃ/ｓｅｃｕｒｉｔｙ/ｌｉｍｉｔｓ文件中，可以把这些参数设为－１即无限制，可以用ｖｉ修改/ｅｔｃ/ｓｅｃｕｒｉｔｙ/ｌｉｍｉｔｓ文件，所有修改在用户重新登录后生效。

　　３．ＰａｇｉｎｇＳｐａｃｅ

　　检查ＰａｇｉｎｇＳｐａｃｅ的大小，在物理内存＜２Ｇ时，应至少设定为物理内存的１．５倍，若物理内存＞２Ｇ，可作适当调整。同时在创建ＰａｇｉｎｇＳｐａｃｅ时应尽量分配在不同的硬盘上，提高其性能。利用ｓｍｉｔｔｙｃｈｐｓ修改原有ＰａｇｉｎｇＳｐａｃｅ的大小或利用ｓｍｉｔｔｙｍｋｐｓ增加一块ＰａｇｉｎｇＳｐａｃｅ。

　　４．系统核心参数配置

　　利用ｌｓａｔｔｒ－Ｅｌｓｙｓ０检查ｍａｘｕｐｒｏｃ，ｍｉｎｐｏｕｔ，ｍａｘｐｏｕｔ等参数的大小。ｍａｘｕｐｒｏｃ为每个用户的最大进程数通常如果系统运行Ｏｒａｃｌｅ应调整ｍａｘｕｐｒｏｃ，将Ｄｅｆａｕｌｔ：１２８调整到５００，ｍａｘｕｐｒｏｃ增加可以马上生效。当应用涉及大量的顺序读写而影响前台程序响应时间时，可考虑将ｍａｘｐｏｕｔ设为３３ｍｉｎｐｏｕｔ设为１６，用ｓｍｉｔｔｙｃｈｇｓｙｓ命令设置。

　　５．文件系统空间的设定

　　一般来说，文件系统/、/ｕｓｒ、/ｖａｒ、/ｔｍｐ的使用率不应超过８０％，/ｔｍｐ建议至少为３００Ｍ，文件系统满将导致系统不能正常工作，尤其是ＡＩＸ的基本文件系统，如/根文件系统满则会导致用户不能登录。用ｄｆ查看：＃ｄｆ－ｋ（查看ＡＩＸ的基本文件系统），利用ｓｍｉｔｔｙｃｈｆｓ扩展文件系统的空间。

　　６．激活ＳＳＡＦａｓｔ－ＷｒｉｔｅＣａｃｈｅ

　　利用ｓｍｉｔｔｙｓｓａｆａｓｔｗ激活每一个逻辑盘ｈｄｉｓｋｎ的Ｆａｓｔ－ＷｒｉｔｅＣａｃｈｅ：选择硬盘后，把ＥｎａｂｌｅＦａｓｔ－Ｗｒｉｔｅ改为Ｙｅｓ后，回车即可。

　　７．ＨｉｇｈｗａｔｅｒｍａｒｋｆｏｒｐｅｎｄｉｎｇｗｒｉｔｅＩ/Ｏｓｐｅｒｆｉｌｅｍａｘｐｏｕｔ和ＬｏｗｗａｔｅｒｍａｒｋｆｏｒｐｅｎｄｉｎｇｗｒｉｔｅＩ/Ｏｓｐｅｒｆｉｌｅ配置

　　其缺省值为０，在双机环境中一般应将Ｈｉｇｈｗａｔｅｒｍａｒｋ设为３３Ｌｏｗｗａｔｅｒｍａｒｋ设为２４，这两个参数可用ｓｍｉｔｔｙｃｈｇｓｙｓ来设置。

　　８．ｓｙｎｃｄｄａｅｍｏｎ的数据刷新频率

　　该值表示刷新内存数据到硬盘的频率，缺省值为６０，一般可改为２０，也可根据实际情况更改。该参数通过/ｓｂｉｎ/ｒｃ．ｂｏｏｔ配置，将ｎｏｈｕｐ/ｕｓｒ/ｓｂｉｎ/ｓｙｎｃｄ６０＞/ｄｅｖ/ｎｕｌｌ２＞＆１＆参数中的６０改为２０即可。

　　四、ＡＩＸ系统备份和恢复

　　备份和恢复是系统管理员经常要做的事情，主要包括ｒｏｏｔｖｇ备份和用户数据备份。

　　１．操作系统和系统程序的备份

　　＃ｔｃｔｌ－ｆ／ｄｅｖ／ｒｍｔ０ｒｅｗｉｎｄ

　　＃ｓｍｉｔｍｋｓｙｓｂ

　　在“备份设备或文件”中添入“/ｄｅｖ/ｒｍｔ０”后回车，系统会运行很长时间，等到屏幕显示ＯＫ后拿出磁带。这时候，系统备份完成。ｍｋｓｙｓｂ仅备份ｒｏｏｔｖｇ中已安装的文件系统。

　　２．用户数据备份

　　（１）常用磁带机选项

　　 /ｄｅｖ/ｒｍｔ０若选择/ｄｅｖ/ｒｍｔ０，在插入磁带和写完一次磁带时，磁带机都将磁带反绕到头。因此下一次备份文件将覆盖本次备份。

　　 /ｄｅｖ/ｒｍｔ０．１若选择/ｄｅｖ/ｒｍｔ０．１则插入磁带和写完一次磁带时，磁带机均不反绕磁带。因此，一盘磁带可以连续备份几个文件或文件系统。

　　（２）＃ｓｍｉｔｆｓ

　　　　选择“备份文件系统”，输入要备份的“文件系统名称”，输入“/ｄｅｖ/ｒｍｔ０．１”，重复上述操作即可在同一盘磁带上备份多个文件系统。

　　３．ｒｏｏｔｖｇ的恢复

　　启动机器进入维护模式，当出现“ＷｅｌｃｏｍｅｔｏＢａｓｅＯｐｅｒａｔｉｎｇＳｙｓｔｅｍＩｎｓｔａｌｌａｔｉｏｎａｎｄＭａｉｎｔａｎｅｎｃｅ”时，选３ “ＳｔａｒｔＭａｉｎｔｅｎａｎｃｅＭｏｄｅｆｏｒＳｙｓｔｅｍＲｅｃｏｖｅｒｙ”，要恢复系统，继续选４“ＩｎｓｔａｌｌｆｒｏｍａＳｙｓｔｅｍＢａｃｋｕｐ”，出现“ＣｈｏｏｓｅｍｋｓｙｓｂＤｅｖｉｃｅ”画面，选“/ｄｅｖ/ｒｍｔ０”并插入磁带后回车，系统自动恢复操作系统。

　　４．用户数据恢复

　　　　＃ｔｃｔｌ－ｆ／ｄｅｖ／ｒｍｔ０ｒｅｗｉｎｄ

　　　　＃ｓｍｉｔｆｓ

　　　　选择“恢复文件系统”，添入“设备名称”和“目标目录”，系统会自动恢复相应目录。

　　五、ＡＩＸ系统日常检查

　　ＡＩＸ系统日常检查工作是应用维护非常重要的部分，可以把系统故障排除在萌芽阶段，以下日常检查很有参考价值。

　　（１）硬件检查

　　检查各指示灯状态和各物理设备的可用情况。

　　（２）进程检查

　　检查是否有死进程，使用ｐｓ－ｅｆ命令列出正在运行的所有进程的各种信息。

　　（３）文件系统是否满

　　适用ｄｆ－ｋ命令可以以ｋ为单位检查文件系统的使用率。

　　（４）检查系统出错日志

　　使用ｅｒｒｐｔ｜ｍｏｒｅ命令检查，清除现有的ｌｏｇＥｒｒｃｌｅａｒ０。

　　（５）检查系统合法/非法登录情况

　　使用Ｌａｓｔ命令检查登录地点。

　　（６）检查系统是否有巨大的Ｃｏｒｅ文件生成

　　使用ｆｉｎｄ / －ｎａｍｅｃｏｒｅ－ｐｒｉｎｔ命令检查。对Ｃｏｒｅ文件，一般直接删除即可。

　　（７）系统性能检查

　　 ①ＣＰＵ性能：使用Ｖｍｓｔａｔｔｏｐａｓ命令检查。

　　 ②内存使用情况：使用ｔｏｐａｓ，ｖｍｓｔａｔ命令检查。

　　 ③检查ＩＯ平衡使用情况：使用ｉｏｓｔａｔ命令检查。

　　 ④交换空间使用情况：使用ｌｓｐｓ－ａ命令检查。

　　（８）Ｍａｉｌ检查

posted @ 2012-08-16 10:33 熊健阅读(2686) 评论(0) 编辑收藏举报

刷新页面返回顶部

Sylar Xiong的专栏

金融应用系统上线部署实施方案 AIX P570 + EMC DMX4-950

公告