09性能调优
1.性能调优解决的问题
应用程序在运行过程中经常会出现性能问题,比较常见的性能问题现象是:
1、通过top命令查看CPU占用率高,接近100甚至多核CPU下超过100都是有可能的。
2、请求单个服务处理时间特别长,多服务使用skywalking等监控系统来判断是哪一个环节性能低下。
3、程序启动之后运行正常,但是在运行一段时间之后无法处理任何的请求(内存和GC正常)。
2.性能调优的方法
2.1 线程转储
线程转储(Thread Dump)提供了对所有运行中的线程当前状态的快照。线程转储可以通过jstack、visualvm等工具获取。其中包含了线程名、优先级、线程ID、线程状态、线程栈信息等等内容,可以用来解决CPU占用率高、死锁等问题。
1、通过jps查看进程ID:
2、通过jstack 进程ID查看线程栈信息:
3、通过jstack 进程ID > 文件名导出线程栈文件
线程转储(Thread Dump)中的几个核心内容: 名称: 线程名称,通过给线程设置合适的名称更容易“见名知意” 优先级(prio):线程的优先级 Java ID(tid):JVM中线程的唯一ID 本地 ID (nid):操作系统分配给线程的唯一ID 状态:线程的状态,分为: NEW – 新创建的线程,尚未开始执行 RUNNABLE –正在运行或准备执行 BLOCKED – 等待获取监视器锁以进入或重新进入同步块/方法 WAITING – 等待其他线程执行特定操作,没有时间限制 TIMED_WAITING – 等待其他线程在指定时间内执行特定操作 TERMINATED – 已完成执行 栈追踪: 显示整个方法的栈帧信息 线程转储的可视化在线分析平台:
1、jstack.review – Java Thread Dump Analyzer
2、Smart Java thread dump analyzer – thread dump analysis in seconds
2.2 解决CPU占用率高的问题思路
1、通过top –c 命令找到CPU占用率高的进程,获取它的进程ID。
2、使用top -p 进程ID单独监控某个进程,按H可以查看到所有的线程以及线程对应的CPU使用率,找到CPU使用率特别高的线程。
3、使用 jstack 进程ID 命令可以查看到所有线程正在执行的栈信息。使用 jstack 进程ID > 文件名 保存到文件中方便查看。
4、找到nid线程ID相同的栈信息,需要将之前记录下的十进制线程号转换成16进制。通过 printf ‘%x\n’ 线程ID 命令直接获得16进制下的线程ID。
5、找到栈信息对应的源代码,并分析问题产生原因。
在定位CPU占用率高的问题时,比较需要关注的是状态为RUNNABLE的线程。但实际上,有一些线程执行本地方法时并不会消耗CPU,而只是在等待。但 JVM 仍然会将它们标识成“RUNNABLE”状态。
2.3 方法嵌套比较深的情况下,找到具体哪个方法CPU占用率高
上面已经确定是某个接口性能出现了问题,但是由于方法嵌套比较深,需要借助于arthas定位到具体的方法。比如调用链是A方法 -> B方法 -> C方法 -> D方法,整体耗时较长。我们需要定位出来是C方法慢导致的问题。
trace命令监控
使用arthas的trace命令,可以展示出整个方法的调用路径以及每一个方法的执行耗时。
命令: trace 类名 方法名
添加 --skipJDKMethod false 参数可以输出JDK核心包中的方法及耗时。
添加 ‘#cost > 毫秒值’ 参数,只会显示耗时超过该毫秒值的调用。
添加 –n 数值 参数,最多显示该数值条数的数据。
所有监控都结束之后,输入stop结束监控,重置arthas增强的对象。
1、使用trace命令,监控方法的执行:
2、发起一次请求调用:
3、显示出了方法调用的耗时占比:
4、添加 --skipJDKMethod false 参数可以输出JDK核心包中的方法及耗时:
5、添加 ‘#cost > 1000’ 参数,只显示耗时超过1秒的调用。
6、添加 –n 1 参数,最多显示1条数据,避免数据太多看起来不清晰。
7、所有监控都结束之后,输入stop结束监控,重置arthas增强的对象。避免对性能产生影响。
在使用trace定位到性能较低的方法之后,使用watch命令监控该方法,可以获得更为详细的方法信息。
命令:
watch 类名 方法名 ‘{params, returnObj}’ ‘#cost>毫秒值' -x 2
‘{params, returnObj}‘ 代表打印参数和返回值。
-x 代表打印的结果中如果有嵌套(比如对象里有属性),最多只展开2层。允许设置的最大值为4。
1、执行命令,发起一笔接口调用:
2、cost = 1565ms代表方法执行时间是1.56秒,result = 后边是参数的内容,首先是一个集合(既可以获取返回值,也可以获取参数),第一个数组就是参数,里边只有一个元素是一个整数值为1。
总结:
1、通过arthas的trace命令,首先找到性能较差的具体方法,如果访问量比较大,建议设置最小的耗时,精确的找到耗时比较高的调用。
2、通过watch命令,查看此调用的参数和返回值,重点是参数,这样就可以在开发环境或者测试环境模拟类似的现象,通过debug找到具体的问题根源。
3、使用stop命令将所有增强的对象恢复。
3.定位偏底层的性能问题
有一个接口中使用了for循环向ArrayList中添加数据,但是最终发现执行时间比较长,需要定位是由于什么原因导致的性能低下。
解决思路:
Arthas提供了性能火焰图的功能,可以非常直观地显示所有方法中哪些方法执行时间比较长。
使用arthas的profile命令,生成性能监控的火焰图。
命令1: profiler start 开始监控方法执行性能
命令2: profiler stop –format html 以HTML的方式生成火焰图
火焰图中一般找绿色部分Java中栈顶上比较平的部分,很可能就是性能的瓶颈。
1、使用命令开始监控:
2、发送请求测试:
3、执行命令结束,并生成火焰图的HTML
4、观察火焰图的结果:
火焰图中重点关注左边部分,是我们自己编写的代码的执行性能,右边是Java虚拟机底层方法的性能。火焰图中会展示出Java虚拟机自身方法执行的时间。
火焰图中越宽的部分代表执行时间越长,比如:
很明显ArrayList类中的add方法调用花费了大量的时间,这其中可以发现一个copyOf方法,数组的拷贝占用时间较多。
观察源码可以知道,频繁的扩容需要多次将老数组中的元素复制到新数组,浪费了大量的时间。
在ArrayList的构造方法中,设置一下最大容量,一开始就让它具备这样的大小,避免频繁扩容带来的影响:
最终这部分开销就没有了,宽度变大是因为我放大了这张图:
总结:
偏底层的性能问题,特别是由于JDK中某些方法被大量调用导致的性能低下,可以使用火焰图非常直观的找到原因。
这个案例中是由于创建ArrayList时没有手动指定容量,导致使用默认的容量而在添加对象过程中发生了多次的扩容,扩容需要将原来数组中的元素复制到新的数组中,消耗了大量的时间。通过火焰图可以看到大量的调用,修复完之后节省了20% ~ 50%的时间。
4.线程耗尽问题/死锁问题
问题:程序在启动运行一段时间之后,就无法接受任何请求了。将程序重启之后继续运行,依然会出现相同的情况。
解决思路:线程耗尽问题,一般是由于执行时间过长,分析方法分成两步:
1、检测是否有死锁产生,无法自动解除的死锁会将线程永远阻塞。
2、如果没有死锁,再使用上面的打印线程栈的方法检测线程正在执行哪个方法,一般这些大量出现的方法就是慢方法。
线程死锁可以通过三种方法定位问题:
1、 jstack -l 进程ID > 文件名 将线程栈保存到本地。
在文件中搜索deadlock即可找到死锁位置:
2、 开发环境中使用visual vm或者Jconsole工具,都可以检测出死锁。使用线程快照生成工具就可以看到死锁的根源。生产环境的服务一般不会允许使用这两种工具连接。
3、使用fastthread自动检测线程问题。 Smart Java thread dump analyzer – thread dump analysis in seconds Fastthread和Gceasy类似,是一款在线的AI自动线程问题检测工具,可以提供线程分析报告。通过报告查看是否存在死锁问题。
在visualvm中保存线程栈:
选择文件并点击分析:
死锁分析报告: