一、使用传统jstack手法来排查
如何使用原生top命令、jstack命令来做定位具体代码的位置处理
1、简单步骤有下面几步
- 执行top命令,查看CPU占用情况,找到进程的pid(12002)
- 使用 top -Hp <pid> 命令(为Java进程的id号)查看该Java进程内所有线程的资源占用情况
- 找出负载高的线程,记录tid(26917);
- printf “%x
” 命令(tid指线程的id号 26917)将以上10进制的线程号转换为16进制nid(6925); - jstack -l <pid>(12002) > ./jstack_result.log 【采用jstack命令导出线程快照 ,通过使用jdk自带命令jstack获取该java进程的线程快照并输入到文件中: jstack -l 进程id号 > ./jstack_result.txt 命令(为Java进程的id号)来获取线程快照结果并输入到指定文件。】
- cat jstack_result.log | grep -A 200 <nid>(6925)【根据线程号定位具体代码 cat jstack_result.log | grep -A 100 6925】
2、使用top命令查看
top
3、查看cpu使用率比较高的线程
top -Hp 7
4、然后将占用最高的 pid 转换为 16 进制 printf '%x
' pid 得到 nid
printf '%x ' 33264 81f0 printf '%x ' 30633 77a9
5、接着直接使用 jstack 导出进程7的堆栈信息
jstack -l 7 > ./jstack_result.log
打包文件
tar -cvf jstack_result.tar jstack_result.log
6、导出的堆栈文件里面中找到相应的16进制转换后的线程堆栈信息
cat jstack_result.log |grep -A 200 'nid=0x6a'
可以看到我们已经找到了 nid 为 0x6a的堆栈信息,接着只要仔细分析一番即可。
当然更常见的是我们对整个 jstack 文件进行分析,通常我们会比较关注 WAITING 和 TIMED_WAITING 的部分,BLOCKED 就不用说了。
WAITING:进入等待状态, 使用方式:wait/join/park方法进入无限等待,通过notify/notifyAll/unpark唤醒; TIMED_WAITING:与WAITING类似, 使用方式: a. 给定等待时间的wait/join/park方法; b. sleep方法; BLOCKED:被动进入等待状态,使用方式进入Synchronized块;
顺便补下之前关于线程等待两种方式的区别:
cat jstack_result.log | grep "java.lang.Thread.State" | sort -nr | uniq -c
Object.wait() 和 Thread.sleep() 区别:
- wait() 方法必须在同步代码块中调用,否则会抛出异常IllegalMonitorStateException; 而sleep()则不会。
- sleep不会释放锁,它也不需要占用锁,到指定时间过期会自动唤醒。wait会释放锁,但调用它的前提是当前线程占有锁(即代码要在synchronized中)等到唤醒条件满足之后,线程进入锁池,获取锁之后进入READY状态;
- 它们都可以被interrupted方法中断。
- wait()与wait(0)同义,无限等待,如果没设置超时时间的wait方法必须等待其他线程执行notify来唤醒;sleep(0)的意思是不等待,并且触发操作系统立刻重新进行一次CPU竞争。
我们可以使用命令 cat jstack_result.log | grep "java.lang.Thread.State" | sort -nr | uniq -c 来对 jstack 的状态有一个整体的把握,如果 WAITING 之类的特别多,那么多半是有问题啦。
cat jstack_result.log | grep "java.lang.Thread.State" | sort -nr | uniq -c
二、使用arthas利器来排查
执行下面命令下载arthas包,敲下回车键就可以下载对应jar包
curl -O https://arthas.aliyun.com/arthas-boot.jar java -jar arthas-boot.jar
使用thread命令查看那个线程cpu最高
thread 线程id 即可排查定位到异常代码来分析,简直不能太easy