运维老司机分享的八个AIX日常运维经验及案例
《运维老司机分享的八个AIX日常运维经验及案例》要点: 原文来自微信公众号:AIX专家俱乐部 【经验分享】在AIX启动时,打开debug模式 经常遇到aix无法启动,但又不知道pending在哪,因此打开启动过程的debug模式,对于诊断问题有很大的帮帮助.下面是打开debug的方法: 打开启动debug先进入微码模式(启动界面中输入8) boot -s trap 进入kdb dbgopt 选择要debug的内容 重新进入kdb 输入g
【经验分享】odm库修复方法
【经验分享】如何收集filemon数据 filemon -O all -o filemon.out;sleep 30;trcstop 语法: filemon [ -d ] [ -i Trace_File -nGennames_File] [ -o File] [ -O Levels] [ -P ] [ -T n] [ -u ] [ -v ] 输出结果保存在fm.out 中.输出字段说明如下: 最活跃的文件 ? #MBs 此文件在测量间隔时间内的传送量(以 MBs 为单位).各行按照此字段降序排列. ? #opns 在测量周期内的文件的打开次数. ? #rds 文件读取调用的次数 ? #wrs 文件写入调用的次数 ? file 文件名称(文件路径全称在详细报告中). ? volume:inode 文件驻留的逻辑卷和在相连文件系统总的 i-node 数目.此字段可以被用来把文件和在详细的 VM 段报告中显示的其相应的永久段关联起来.此字段对在执行过程中创建和删除的临时文件可以为空. 最活跃的段 ? #MBs 此段在测量间隔时间内的传送量(以 MBs 为单位).各行按照此字段降序排列. ? #rpgs 从磁盘读入段中大小为 4-KB 的页面数 ? #wpgs 从段中写入磁盘大小为 4-KB 的页面数(page out) ? #segid 内存段的 VMM 标识 ? segtype段的类型:工作段、永久段(本地文件)、客户机段(远程文件)、页表段、系统段或者包含文件系统数据的指定永久段. ? volume:inode 对永久段来说,包含相关文件的逻辑卷名称和文件的 i-node 数目.此字段可以被用来把段和在详细的文件状态报告中显示的其相应的文件关联起来.对非永久段来说,此字段为空. 最活跃的逻辑卷 ? util 逻辑卷使用率. ? #rblk 从逻辑卷读取的大小为 512 字节的块数. ? #wblk 写入逻辑卷大小为 512 字节的块数. ? KB/s 每秒钟平均传送速率,单位 KB. ? volume 逻辑卷名称. ? description 文件系统安装点或是逻辑卷类型(paging,jfslog,boot,or sysdump).例如,逻辑卷 /dev/hd2 是/usr类型;/dev/hd6 是 paging 类型以及 /dev/hd8 是 jfslog 类型.有时也可能出现被压缩的这个字眼.这意味着所有的数据在被写入磁盘前都会以 Lempel-Zev(LZ)压缩技术自动压缩,在从磁盘读取时则自动解压缩. 最活跃的物理卷 ? util 物理卷使用率. 注:逻辑卷 I/O 请求在物理卷 I/O 请求前后启动.总的逻辑卷使用率将会看起来比总的物理卷使用率高.使用率用百分比表示,0.10 是指 10% 的物理卷在测量时间间隔内繁忙. ? #rblk 从物理卷读取的大小为 512 字节的块数. ? #wblk 写入物理卷大小为 512 字节的块数. ? KB/s 每秒钟平均传送速率,单位 KB. volume 物理卷名称. ? description 有关物理卷类型的简单描述,例如,SCSI 多媒体 CD-ROM 驱动器或 16位SCSI 磁盘驱动器. 文件系统的安装点(mount point)及文件的i节点(inode)可与命令ncheck一起使用,来找出相对应的文件.
【案例分享】/dev/null 2>&1 文件过大导致根目录爆满 在日常检查维护过程中,发现小机分区/目录89%,90%, du -axg / |sort -rn|head 查找出/根目录下最大的10 个文件,发现 ‘/dev/null 2>&1’文件非常大,占比达60%,而且rootvg所剩余的空间不足,无法进行扩容.在IBM官网查询手册以及证实后,发现此文件不停增大为AIX6.1的系统BUG.在观察了近1个月后,在和童确认.在dfkdr分区上进行尝试删除.之后,进行删除操作.根目录恢复正常. http://www-01.ibm.com/support/docview.wss?uid=nas74d33539b559cc0308625792900533a8f Description The /var/opt/tivoli/ep/rusntime/nonstop/bin/cas_src.sh script writes a file “/dev/null 2>&1” which might fill up the / filesystem. This happens with agents that have the following cas.agent fileset version: cas.agent 1.4.2.32 Common Agent Services Agent Work-around and fix notes are detailed below. 判别是否存在BUG lslpp -L cas.agent 可看到Level为1.4.2.32,C F BUG脚本为 cat /var/opt/tivoli/ep/runtime/nonstop/bin/cas_src.sh … else CAS_SRC_LOG=”/dev/null 2>&1” fi … Bug 2 : After installing TL7 and at system reboot,the Director agent is automatically enabled. 处理方式: 1.disable cas_agent 操作命令: stopsrc –s cas_agent 2.disable the cas_agent entry in /etc/inittab 操作命令:chitab “cas_agent:2off:/usr/bin/startsrc –s cas_agent >/dev/null 2>&1” 3.在/dev下执行rm nul*1
【案例分享】多CEC柜 9117-570更换FSP后报无法开机,代码报B1551380 原因:没有按HMC流程更换FSP,换上去的FSP的”processing unit identifier”记录的是B2,B2设置只能支持单柜,不支持多CEC柜. 解决:powered off状态时,进入ASM把”processing unit identifier”改为B3. Note: This feature is available only when the system is powered off. This operation resets the service processor. To change the processing unit identifier,do the following: 1.On the ASMI Welcome pane,specify your user ID and password,and click Log In. 2.In the navigation area,expand System Configuration. 3.Select Processing Unit Identifier. 4.Enter the desired information into the 2-character text area. Supported processing unit identifiers are shown in the following table: 5.Note: Processing unit IDs are not applicable for IntelliStation? POWER? 185,7037-A50,and the 7031-D24 and 7031-T24enclosure models. 6.Click Save settings to complete the operation.
【案例分享】AIX6100-06-06系统bug引起down机 某机器操作系统版本6100-06-06,系统down机,生成dump文件. Problem: System crash with following stack CRASH INFORMATION: CPU 3 CSA F00000002FF47600 at time of crash,error code for LEDs: 30000000 pvthread+02BD00 STACK: [00009500].simple_lock+000000 () [00450E24]netinfo_unixdomnlist+000824 (??,??, ??,??) [0451214C]netinfo+00006C (??,??) [004504DC]netinfo+0000FC (??,??) [00003850]ovlya_addr_sc_flih_main+000130 () [kdb_get_virtual_memory] no real storage @ FFFFFFFFFFFEF20 [100002640]0000000100002640 () [kdb_read_mem] no real storage @ FFFFFFFFFFF5E30 bug原因 File lock is taken before checking whether the file type is socket. 该故障因netstat -f unix 命令引起系统 crash,是iBM bug 引起 建议单独提升bos.mp64包补丁包或者整体升级到6100-06-12-1339(SP12) 官网解释: IV09793: SYSTEM CRASH IN NETINFO_UNIXDOMNLIST APPLIES TO AIX 6100-06 http://www-01.ibm.com/support/docview.wss?uid=isg1IV09793 File lock is taken before checking whether the file type is socket.
【案例分享】一次HACMP的回车 (编辑:ASP站长网) |