JVM crash了,怎么办

前言

最近生产环境的JVM老是crash,而用gdb查看call stack的时候,得到的是下面带有一堆问号的,

(gdb) bt
#0  0x00007f635bf98596 in __memmove_avx_unaligned () from /var/lib/jenkins/Projects/libc.so.6
#1  0x00007f634aa1d142 in Unsafe_CopyMemory0 () from /RELEASE/BIN/Linux/_jre/lib/server/libjvm.so
#2  0x00007f63285c20a4 in ?? ()
#3  0x00000000000014ea in ?? ()
#4  0x00000000b5330948 in ?? ()
#5  0x0000000000000000 in ?? ()

这时候,有些人可能就会以为可能symbols 没有匹配,系统库比如libc.so等等缺少debug symbol。而问题也就被搁置了。

实际上我们还有招。

之前也有人在我的另一篇文章 CrackingOysters:两大绝招debug core dump?

提问C#的进程crash怎么办,实际上原理是相同的。在这里以JVM crash为例。

本文主要讲了两点,

  • 使用jhsdb从core dump打印Java的stack trace?
  • 当系统库不匹配,jhsdb不能工作怎么办?

为什么JVM会crash?

JVM crash的原因有很多,有可能是JVM本身自己的bug(这个概率比较小),有可能是自己的程序有问题。

而自己的程序有问题,在自己的程序调用了native的方法的时候,又比较常见。

什么叫调用了native的方法?比如调用了C/C++写的库文件,比如C/C++里面调用JVM。

怎么调用C/C++的库文件,可以通过JNI的方法。这个网上有一堆教程,我试了一下,也很简单。就不在这里赘述。

假设我们有一个Java程序,它调用了C++的库文件,crash了,而用gdb打印call stack的时候是开头的样子,怎么办呢?(用lldb打印call stack也会是一样效果)

JDK本身的调式工具

这时候我们可以通过JDK带有的工具来分析问题。

我发现jhsdb特别好使,它有好多功能,比如可以从core dump里面打印Java 代码调用栈,并告诉你有没有dead lock。

jhsdb的reference是 https:// docs.oracle.com/javase/ 9/tools/jhsdb.htm#
JSWOR-GUID-0345CAEB-71CE-4D71-97FE-AA53A4AB028E

一般会在JAVA_HOME/bin里面。

让我们看看它对自己的描述

它可以是一个命令行的调试器,可以是是一个ui debugger,这两个选项交给感兴趣的读者来探索。

它还支持其他选项: debugd, jstack, jmap, jinfo, jsnap。

这些选项在特定情况下,都很有用,读者可以自己探索一下,这里我主要介绍一下jstack,

它可以打印Java和Native的调用栈,不论是从core dump还是正在运行的process。

这就回到了我们开头的问题,当我们只有core dump的时候,我们可以借助jhsdb jstack来研究程序crash在哪里。

比如我们可以得到类似下面的调用栈

Stack: [0x000070000134c000,0x00007000013cc000],  sp=0x00007000013cbee0,  free space=511k
Native frames: (J=compiled Java code, j=interpreted, Vv=VM code, C=native code)
C  [libHelloWorld.dylib+0x3180]  Book::~Book()+0x30
C  [libHelloWorld.dylib+0x3225]  Book::~Book()+0x15
C  [libsystem_c.dylib+0x5a13c]  __cxa_finalize_ranges+0x13f
C  [libsystem_c.dylib+0x5a412]  exit+0x37
C  [libjli.dylib+0x7dcb]  apple_main+0x5b
C  [libsystem_pthread.dylib+0x6109]  _pthread_start+0x94
C  [libsystem_pthread.dylib+0x1b8b]  thread_start+0xf

系统库不匹配

jhsdb很好使,但是有时候却有心无力。

为什么呢?

因为有时候我们的程序crash的机器时客户的机器,而我们手头没有任何机器跟客户的机器一样。

有时候更致命的是,我们无法得知客户的具体机器类型,也就是无法知道客户的系统库版本。

而jhsdb在系统库不匹配的时候,会拒绝工作,得到下面的错误,

Error attaching to core file: Can't attach to the core file
sun.jvm.hotspot.debugger.DebuggerException: Can't attach to the core file
        at jdk.hotspot.agent/sun.jvm.hotspot.debugger.linux.LinuxDebuggerLocal.attach0(Native Method)
        at jdk.hotspot.agent/sun.jvm.hotspot.debugger.linux.LinuxDebuggerLocal.attach(LinuxDebuggerLocal.java:282)
        at jdk.hotspot.agent/sun.jvm.hotspot.HotSpotAgent.attachDebugger(HotSpotAgent.java:674)
        at jdk.hotspot.agent/sun.jvm.hotspot.HotSpotAgent.setupDebuggerLinux(HotSpotAgent.java:612)
        at jdk.hotspot.agent/sun.jvm.hotspot.HotSpotAgent.setupDebugger(HotSpotAgent.java:338)
        at jdk.hotspot.agent/sun.jvm.hotspot.HotSpotAgent.go(HotSpotAgent.java:305)
        at jdk.hotspot.agent/sun.jvm.hotspot.HotSpotAgent.attach(HotSpotAgent.java:157)
        at jdk.hotspot.agent/sun.jvm.hotspot.tools.Tool.start(Tool.java:191)
        at jdk.hotspot.agent/sun.jvm.hotspot.tools.Tool.execute(Tool.java:118)
        at jdk.hotspot.agent/sun.jvm.hotspot.tools.JStack.runWithArgs(JStack.java:90)
        at jdk.hotspot.agent/sun.jvm.hotspot.SALauncher.runJSTACK(SALauncher.java:297)
        at jdk.hotspot.agent/sun.jvm.hotspot.SALauncher.main(SALauncher.java:533)

这时候怎么办呢?

最好的办法是跟客户沟通,让客户告诉我们他们安装的系统库版本,装了什么补丁,这样我们可以从网上下载对应的系统库到我们的机器,然后通过设置SA_ROOT来是jhsdb使用下载的系统库。

这时候jhsdb就会正常工作。

如果实在无法获取正确的系统库版本,这时候还有一个办法。那就是使用gdb来debug jhsdb,在对应报错的地方做一些hack,这样jhsdb就可以正常工作了。

这个办法涉及到如何调试jhsdb的技巧,实际使用的时机不多,略过。


原文链接:
tuicool.com/articles/BRFVBrf

原文链接:,转发请注明来源!