《Linux系统运维中的十大经典问题及其解决方法》要点: 本文介绍了Linux系统运维中的十大经典问题及其解决方法,希望对您有用。如果有疑问,可以联系我们。
今天在网上看到一些Linux系统维护过程中比较常见且经典的问题及其解决方法,在这里汇总给大家.
1. 执行shell脚本报错”bad interpreter: No such file or directory”
问题:某天研发某同事找我说帮他看看他写的shell脚本,死活不执行,报错.我看了下,脚本很简单,也没有常规性的错误,报“: bad interpreter: No such file or directory”错.一看这错,我就问他是不是在windows下编写的脚本,然后在上传到linux服务器的……果然.
原因:在DOS/Windows里,文本文件的换行符为rn,而在*nix系统里则为n,所以DOS/Windows里编辑过的文本文件到了*nix里,每一行都多了个^M.
解决:1)重新在linux下编写脚本;2)vi :% s/r//g :% s/^M//g (^M输入用Ctrl+v,Ctrl+m)
2. crontab输出占用系统空间
问题:/var/spool/clientmqueue目录占用空间超过100G
原因:cron中执行的程序有输出内容,输出内容会以邮件形式发给cron的用户,而sendmail没有启动所以就产生了/var/spool/clientmqueue目录下的那些文件,日积月累可能撑破磁盘.
解决:1)直接手动删除:ls |xargs rm -f ; 2)彻底解决:在cron的自动执行语句后加上 >/dev/null 2>&1
3. telnet很慢
问题:某天研发某同事说10.50访问10.52memcached服务异常,让我们检查下看网络/服务/系统是否有异常.检查发现系统正常,服务正常,10.50ping10.52也正常,但10.50telnet10.52很慢.同时发现该机器的namesever是不起作用的.
原因:because your PC doesn’t do a reverse DNS lookup on your IP then… when you telnet/ftp into your linux box,it’ll do a dns lookup on you.
解决:1)修改/etc/hosts使hostname和ip对应; 2)在/etc/resolv.conf注释掉nameserver或者找一个“活的”nameserver.
4. Read-only file system
问题:同事在mysql里建表建不成功,提示如下:
mysql>create table wosontest (colddname1 char(1));
ERROR 1005 (HY000): Can’t create table ‘wosontest’ (errno: 30)
经检查mysql用户权限以及相关目录权限没问题;用perror 30提示信息为:OS error code 30: Read-only file system
可能原因:1)文件系统损坏;2)磁盘又坏道;3)fstab文件配置错误,如分区格式错误错误(将ntfs写成了fat)、配置指令拼写错误等.
解决:1)由于是测试机,重启机器后恢复;2)网上说用mount可解决.
5. 文件删了磁盘空间没释放
问题:某天发现某台机器df -h已用磁盘空间为90G,而du -sh /*显示所有使用空间加起来才30G,囧.
原因:可能某人直接用rm删除某个正在写的文件,导致文件删了但磁盘空间没释放的问题
解决:
1)最简单重启系统或者重启相关服务.
2)干掉进程
/usr/sbin/lsof|grep deleted
ora 25575 data 33u REG 65,65 4294983680 /oradata/DATAPRE/UNDOTBS009.dbf (deleted)
从lsof的输出中,我们可以发现pid为25575的进程持有着以文件描述号(fd)为 33打开的文件/oradata/DATAPRE/UNDOTBS009.dbf.在我们找到了这个文件之后可以通过结束进程的方式来释放被占用的空间:echo > /proc/25575/fd/33
3)删除正在写的文件一般用 cat /dev/null > file
6. find文件
问题:在tmp目录下有大量包含picture_*的临时文件,每天晚上2:30对一天前的文件进行清理.之前在crontab下跑如下脚本,但是发现脚本效率很低,每次执行时负载猛涨,影响到其他服务.
#!/bin/sh
find /tmp -name “picture_*” -mtime +1 -exec rm -f {} ;
原因:目录下有大量文件,用find很耗资源.
解决:
#!/bin/sh
cd /tmp
time=`date -d “2 day ago” “+%b %d”`
ls -l|grep “picture” |grep “$time”|awk ‘{print $NF}’|xargs rm -rf
7. 获取不了网关mac地址
问题:从2.14到3.65(映射地址2.141)网络不通,但是从3端的其他机器到3.65网络OK.
原因:
# arp
Address HWtype HWaddress Flags Mask Iface
192.168.3.254 ether incomplet CM bond0
表面现象是机器自动获取不了网关MAC地址,网络工程师说是网络设备的问题,具体不清.
解决:arp绑定,arp -i bond0 -s 192.168.3.254 00:00:5e:00:01:64
8.问题:某天研发某同事说网站前端+1环境http无法启动,我上去看了下.报如下错:
/etc/init.d/httpd start
Starting httpd: [Sat Jan 29 17:49:00 2011] [warn] module antibot_module is already loaded,skipping
Use proxy forward as remote ip : true.
Antibot exclude pattern : .*.[(js|css|jpg|gif|png)]
Antibot seed check pattern : login
(98)Address already in use: make_sock: could not bind to address [::]:7080
(98)Address already in use: make_sock: could not bind to address 0.0.0.0:7080
no listening sockets available,shutting down
Unable to open log [FAILED]
原因:
1)端口被占用:表面看是7080端口被占用,于是netstat -npl|grep 7080看了下发现7080没有占用;
2)在配置文件中重复写了端口,如果在以下两个文件同时写了Listen 7080
/etc/httpd/conf/http.conf
/etc/httpd/conf.d/t.10086.cn.conf
解决:注释掉/etc/httpd/conf.d/t.10086.cn.conf的Listen 7080,重启,OK.
9. too many open file终极解决方案
echo “” >> /etc/security/limits.conf
echo “* soft nproc 65535″ >> /etc/security/limits.conf
echo “* hard nproc 65535″ >> /etc/security/limits.conf
echo “* soft nofile 65535″ >> /etc/security/limits.conf
echo “* hard nofile 65535″ >> /etc/security/limits.conf
echo “” >> /root/.bash_profile
echo “ulimit -n 65535″ >> /root/.bash_profile
echo “ulimit -u 65535″ >> /root/.bash_profile
最后重启机器 或者执行 ulimit -u 655345 && ulimit -n 65535
(编辑:ASP站长网)
|