Gipcdout.trc文件巨大,导致磁盘空间耗尽

发布时间 2023-11-03 13:23:24作者: 石云华

背景:

Exadata上的一套19C RAC环境,发现/u01目录下的一个名为Gipcdout.trc的日志文件,占用了大约100GB的磁盘空间。具体信息如下所示。

[root@dm04dbadm05 /u01/app/grid/crsdata/dm04dbadm05/output]# ll

......

-rw-r--r-- 1 root   root   100372142422  Nov   3   11:03   gipcdOUT.trc

......

 

原因分析:

1、Trc文件,也即集群中某个进程的跟踪文件,通常记录该进程的一些附加信息。要想知道为什么这个文件占用如此多的磁盘空间,就需要先看看这个trc文件里到底记录了些什么内容。截取该文件的部分内容如下所示。

skgzibr_run_pt: [g/12.56.130.111;12.56.130.112;] Path (l=0,r=0) rdma success

skgzibr_check_node_reachability_by_node: [g/12.56.130.111;12.56.130.112;] Update:

skgzibr_check_node_reachability_by_node: [g/12.56.130.111;12.56.130.112;] Data exchange connection up working

skgzibr_check_node_reachability_by_node: [g/12.56.130.111;12.56.130.112;] Path (l=0,r=0,v=0) up

skgzibr_check_node_reachability_by_node: [g/12.56.130.111;12.56.130.112;] Path (l=1,r=1,v=0) pending

skgzibr_check_node_reachability_by_node: [g/12.56.130.111;12.56.130.112;] Path (l=0,r=1,v=0) pending

skgzibr_check_node_reachability_by_node: [g/12.56.130.111;12.56.130.112;] Path (l=1,r=0,v=0) pending

skgzibr_check_node_reachability_by_node: [g/12.56.130.111;12.56.130.112;] Reachable due to at least 1 path up

skgzibr_check_node_reachability_by_node: Perform FNDD for node g/12.56.130.105;12.56.130.106;

......

trc文件里到的内容全部是对节点的可达性进行检测,检测这些节点的RDMA ip是否正常工作。

 

2、通常情况下,ORACLE的这种行为基本上可以判定为是BUG所导致,将一些过程日志也写进了日志文件,最终导致日志文件暴增。搜索ORACLE的BUG库,发现有两个BUG与这个问题及其相似。

Bug 31499605 - Gipcdout.trc grows unbounded with roce fndd messages (Doc ID 31499605.8)

Bug 33514890 - Extraneous FNDD Traces In Gipcd Traces (Doc ID 33514890.8)

 

其中,Bug 31499605已经在19.9.0.0.201020中修复;而Bug 33514890需要在(19.15.0.0.220419 或者19.14.1.0.220419 或者19.13.2.0.220419)中才修复。

 

3、查看当前的版本。

[grid@dm04dbadm05 ~]$ opatch lspatches

32301133;MERGE ON DATABASE RU 19.10.0.0.0 OF 31886745 32191451

32289783;OCW Interim patch for 32289783

32218454;Database Release Update : 19.10.0.0.210119 (32218454)

32240590;TOMCAT RELEASE UPDATE 19.0.0.0.0 (32240590)

29340594;DBWLM RELEASE UPDATE 19.0.0.0.0 (29340594)

32218663;ACFS RELEASE UPDATE 19.10.0.0.0 (32218663)

 

[grid@dm04dbadm05 ~]$ opatch lsinventory |grep 31499605

     31486620, 31488316, 31488381, 31493961, 31494121, 31499605, 31502268

 

4、通过当前版本的信息可知,该故障的最终BUG为Bug 33514890。后期择机进行数据库的版本升级。