1. 假死现象
服务程序假死具有以下特征:
1. 程序对请求没有任何响应;
2. 程序请求时没有任何日志输出;
3. 程序进程存在,通过jps或者ps查看进程,可以看到服务进程存在;
2. 造成假死的可能原因
1. java线程出现死锁,或所有线程被阻塞;
2. 数据库连接池中的连接耗尽,导致获取数据库连接时永久等待;
3. 出现了内存泄漏导致了OutOfMemory,内存空间不足导致分配内存空间持续失败;服务器的可用内存足够,但是分配给jvm的内存被耗尽的情况,容易出现这种情况;
4. 服务程序运行过程中替换了jar包,但是没有进行重启服务,这属于不按规则操作引起的问题;
5. 磁盘空间满,导致需要写数据的地方全部失败;
6. 线程池满,无法分配更多的线程来处理请求,通常是因为线程被大量阻塞在某个请求上;
3. 分析方法
1. 通过jstat查看内存使用和垃圾回收情况,查看内存占用情况以及垃圾回收情况是否异常;
2. 通过jmap -heap查看内存分配情况,查看是否内存空间被占满,导致无法分配足够的内存空间;
3. 通过jstack -F pid查找线程死锁,导出线程堆栈,然后查看线程状态;
4. 通过gclog查看垃圾回收原因,需要在服务启动时指定记录垃圾回收日志;
5. 通过jmap -dump:format=b,file=heap.bin 导出内存镜像文件,使用工具进行分析;
6. 通过jmap -histo查看内存对象;
4. 一般情况分析
1. 如果内存空闲空间充足,可以确定不是内存不足引起;
2. 如果垃圾回收日志正常,包括年轻代和老年代,也基本可以确定不是内存不足引起;
3. 通过查看内存中的对象实例和占用空间,如果没有特别大的情况,也基本可以确定不是内存不足引起;
4. 排除了内存不足的原因,就需要重点分析是否线程被阻塞在某个位置了;
5. 如果有多个节点的服务,可以保留一个节点的状态,用于故障原因分析和查找,另外的节点通过重启服务来尽快恢复正常服务;