运维利器:万能的strace
《运维利器:万能的strace》要点: 请及时关注“高效运维(微信ID:greatops)”公众号,并置顶公众号,以免错过各种干货满满的原创文章. 个人简介:王子勇,腾讯高级业务运维工程师,有8年研发与运维工作经验.崇尚开源,喜欢钻研系统技术,曾给rsyslog等项目贡献过代码. 微博帐号:jacuro strace是什么?按照strace官网的描述,strace是一个可用于诊断、调试和教学的Linux用户空间跟踪器.我们用它来监控用户空间进程和内核的交互,比如系统调用、信号传递、进程状态变更等. strace底层使用内核的ptrace特性来实现其功能. 在运维的日常工作中,故障处理和问题诊断是个主要的内容,也是必备的技能.strace作为一种动态跟踪工具,能够帮助运维高效地定位进程和服务故障.它像是一个侦探,通过系统调用的蛛丝马迹,告诉你异常的真相. strace能做什么?运维工程师都是实践派的人,我们还是先来个例子吧. 我们从别的机器copy了个叫做some_server的软件包过来,开发说直接启动就行,啥都不用改.可是尝试启动时却报错,根本起不来! 启动命令:
输出:
为什么起不来呢?从日志看,似乎是初始化日志文件失败,真相到底怎样呢?我们用strace来看看.
输出: 我们注意到,在输出InitLogFile failed错误的前一行,有个open系统调用:
它尝试打开文件/usr/local/apps/some_server/log//server_agent.log来写(不存在则创建),可是却出错了,返回码是-1,系统错误号errorno为ENOENT. 查下open系统调用的手册页: man 2 open 搜索ENOENT这个错误号errno的解释 ENOENT O_CREAT ?is not set and the named file does not exist. ?Or,a directory component in pathname does not exist or is a dangling symbolic link. 这里说得比较清楚,因为我们例子中的open选项指定了O_CREAT选项,这里errno为ENOENT的原因是日志路径中某个部分不存在或者是一个失效的符号链接.我们来一级一级看下路径中的哪部分不存在:
原来是log子目录不存在!上层目录都是存在的.手工创建log子目录后,服务就能正常启动了. 回过头来,strace究竟能做什么呢? 它能够打开应用进程的这个黑盒,通过系统调用的线索,告诉你进程大概在干嘛. strace怎么用?既然strace是用来跟踪用户空间进程的系统调用和信号的,在进入strace使用的主题之前,我们的先理解什么是系统调用. 关于系统调用:按维基百科中的解释,在计算机中,系统调用(英语:system call),又称为系统呼叫,指运行在用户空间的程序向操作系统内核请求需要更高权限运行的服务. 系统调用提供用户程序与操作系统之间的接口.操作系统的进程空间分为用户空间和内核空间:
在Linux系统上,应用代码通过glibc库封装的函数,间接使用系统调用. Linux内核目前有300多个系统调用,详细的列表可以通过syscalls手册页查看.这些系统调用主要分为几类:
熟悉Linux系统调用/系统编程,能够让我们在使用strace时得心应手.不过,对于运维的问题定位来说,知道strace这个工具,会查系统调用手册,就差不多够了. 想要深入了解的同学,建议阅读《Linux系统编程》,《Unix环境高级编程》等书籍. 我们回到strace的使用上来.strace有两种运行模式. 一种是通过它启动要跟踪的进程.用法很简单,在原本的命令前加上strace即可.比如我们要跟踪 “ls -lh /var/log/messages”?这个命令的执行,可以这样:
另外一种运行模式,是跟踪已经在运行的进程,在不中断进程执行的情况下,理解它在干嘛. 这种情况,给strace传递个-p pid 选项即可. 比如,有个在运行的some_server服务,第一步,查看pid:
得到其pid 17553然后就可以用strace跟踪其执行:
完成跟踪时,按ctrl + C 结束strace即可. strace有一些选项可以调整其行为,我们这里介绍下其中几个比较常用的,然后通过示例讲解其实际应用效果. strace常用选项:从一个示例命令来看:
|