oracle审计AUD$过大导致的数据库登录异常

今天，省分技术人员反映数据库登录异常。

查询oerr，发现该错误是一般性提示，可能导致的原因有数据库未注册、本地文件配置问题等。由于平时连接并没有问题，是突发情况，所以排除了配置问题。

远程登录查询监听，发现监听并无问题，但在尝试本地登录时出现ora 00020错误

[html] view plain copy

oracle@dxxxx:~> sqlplus / as sysdba
SQL*Plus: Release 11.2.0.4.0 Production on Mon Apr 25 10:40:08 2016
Copyright (c) 1982, 2013, Oracle. All rights reserved.
ERROR:
ORA-00020: maximum number of processes (1200) exceeded
Enter user-name:

这说明进程数超过了数据库设定值。尝试在另一个节点登录则并无问题。

那么应用应该不会出现问题才对，因为至少有一个节点是可用的。

为了查找问题根源，我从另一台服务器上使用轻松连接的方式连接节点2的实例，结果报ora 01653

[html] view plain copy

oracle@xxxx:/myimp/aud> sqlplus yy/yy@node2:1521/xxxx
SQL*Plus: Release 11.2.0.4.0 Production on Mon Apr 25 10:04:32 2016
Copyright (c) 1982, 2013, Oracle. All rights reserved.
ERROR:
ORA-00604: error occurred at recursive SQL level 1
ORA-01653: unable to extend table SYS.AUD$ by 8192 in tablespace SYSTEM
ORA-02002: error while writing to audit trail
ORA-00604: error occurred at recursive SQL level 1
ORA-01653: unable to extend table SYS.AUD$ by 8192 in tablespace SYSTEM
Enter user-name:

问题很明显了，系统表空间应该是爆了。而aud$是审计相关。因此查询系统表空间使用情况，并查找系统表空间内数据量最大的表。

[html] view plain copy

SQL> col file_name for a50
SQL> select file_name,bytes/1024/1024/1024 GB from dba_data_files where tablespace_name='SYSTEM';
FILE_NAME GB
-------------------------------------------------- ----------
+DATADG/data/datafile/system.259.783425779 31.9726563

[html] view plain copy

SQL> select * from (
2 select table_name,blocks*8192/1024/1024/1024 GB from user_tables where blocks is not null order by 2 desc)
3 where rownum<10;
TABLE_NAME GB
------------------------------ ----------
AUD$ 27.4380493
IDL_UB1$ .257354736
WRM$_SNAPSHOT_DETAILS .232673645
WRI$_ADV_OBJECTS .193763733
HISTGRM$ .130683899
WRH$_ACTIVE_SESSION_HISTORY .11491394
WRH$_FILESTATXS .112823486
OBJ$ .068336487
SOURCE$ .066230774
9 rows selected.

可以看出，系统表空间已达到上限32G，且其中审计表AUD$占了27G。

查看审计规则，可以看到数据库审计了每次的连接。

现在清楚了。新有的连接因为审计策略需要写入系统表空间的AUD$表，但由于系统表空间已达到空间配额，数据无法写入，导致连接失败。

数据库急需可用，而该表因bug问题不能用数据泵导出，只能exp，耗时太长，因此直接truncate操作。

截断aud$后，从节点1本地连接数据库正常。但从B库连接A库节点1实例仍报ora 00020错误。查看节点1进程数

[html] view plain copy

SQL> select count(*) from v$process;
COUNT(*)
----------
1198

查看参数为1200，节点2进程数为121.因此，怀疑省分配置的tnsnames.ora并未使用LB，导致所有连接只会去节点1.

目前节点1不能连接，是因为之前的连接都hung在这儿，导致连接拥堵。停掉节点一后，B库远程可以连到A库。

[html] view plain copy

SQL> show parameter process
NAME TYPE VALUE
------------------------------------ ----------- ------------------------------
aq_tm_processes integer 1
cell_offload_processing boolean TRUE
db_writer_processes integer 16
gcs_server_processes integer 6
global_txn_processes integer 1
job_queue_processes integer 1000
log_archive_max_processes integer 4
processes integer 1200
processor_group_name string
SQL> select count(*) from v$process;
COUNT(*)
----------
121

重启后，节点1进程数降下来，可以正常连接。

posted @ 2018-01-03 13:09 lclc 阅读(1194) 评论(1) 收藏举报

刷新页面返回顶部