张伟真的博客

用心享受生活, 博客逐步迁移中···

一次线上环境非常规OOM问题的分析

一次线上环境非常规OOM问题的分析 出现OOM的情况是这样的,在业务操作的高峰期,docker容器运行的6个实例,最多的时候可以一周有2-3天都会出现OOM,且一天最多出现3-4次的OOM。 在对这种OOM的dump文件初步分析之后发现,这不是之前出现过的,类似于用户查询某个列表数据,查询返回的数据量较大,且多个用户在同时查询,这种非常明显的,某个业务对象生成了很多,占用了很大的堆内存,导致......

记一次K8S健康检查失败

一次K8S健康检查失败 一、背景 1流水线部署成功,POD一直无法Running,循环重启。使用kubectl descibe pod 查看pod事件为健康检查失败 二、临时解决方案 1确认服务无问题,临时取消健康检查 三、分析过程 12345678910111213141516171819202122232425查看健康检查配置为: livenessProbe: ......