昨天收到服务器报警,负载非常高,最高的时候都到了35了。今天把查询过程总结一下
先明确几个概念:
1、系统负载System load :系统CPU繁忙程度的度量,即还有多少个进程等待CPU的调度
2、平均负载load average :一段时间内的平均负载,这个一段时间一般取1分钟、5分钟、15分钟
查看命令如下:
命令1 :top
查看上图可以看出
当前时间 13:26:08
系统已运行的时间 288 days, 20:56
当前在线用户 1 user
1分钟的平均负载是 32.7 5分钟平均负载是33.28 15分钟的平均负载是33.75
命令2:uptime
也可以看出1分钟的平均负载是 0.67 5分钟平均负载是0.77 15分钟的平均负载是0.81
当前时间 10:12:58
系统已运行的时间 289 days, 17:43
当前在线用户 1 user
命令3 cat /proc/loadavg
除了前3个数字表示平均负载外,后面的1个分数,分母表示系统进程总数,分子表示正在运行的进程数;最后一个数字表示最近运行的进程ID
命令4 w
用来查看登录者的信息及他们的行为
同样可以看到类似的内容
Load则表示系统的繁忙程度
单核
Load<1:没有等待
Load==1:系统已无额外的资源跑更多的进程了
Load>1:进程都堵着等待资源
注:
需要警惕的
Load < 0.7时:系统很闲,要考虑多部署一些服务
0.7 < Load < 1时:系统状态不错
Load == 1时:系统马上要处理不多来了,赶紧找一下原因
Load > 5时:系统已经非常繁忙了
不同Load值说明的问题
1)1分钟Load>5,5分钟Load<1,15分钟Load<1
短期内繁忙,中长期空闲,初步判断是一个抖动或者是拥塞前兆
2)1分钟Load>5,5分钟Load>1,15分钟Load<1
短期内繁忙,中期内紧张,很可能是一个拥塞的开始
3)1分钟Load>5,5分钟Load>5,15分钟Load>5
短中长期都繁忙,系统正在拥塞
4)1分钟Load<1,5分钟Load>1,15分钟Load>5
短期内空闲,中长期繁忙,不用紧张,系统拥塞正在好转
查看cpu核心的命令
grep 'model name' /proc/cpuinfo | wc -l
8就是说明是8核心
CPU是8核,load<8是不会有问题的
好了,上面是一些简单的基础介绍
说一下昨天找问题的过程
第一步 收到报警,说负载已经到了32.
这个时候马上到相关的服务器上查看,使用的是TOP命令
结果如下:
发现是python相关的应用在大量吃CPU
这个时候再使用
ps -ef | grep 'python'
然后找到相应的pid,就能定位到是哪个程序造成的问题了。后面的事情就是对程序内部的问题进行分析了
也可以直接用
ps -ef | grep '9966'来查找到相应的程序
相关推荐
3.1. 1 构建NTP时间服务器 25 3.1. 2 构建DHCP服务器 27 3.1. 3 搭建Samba服务器 29 3.1. 4 搭建NFS服务器 32 3.1. 5 搭建FTP服务器 33 3.1. 6 构建Apache WEB服务器 35 ...9. Linux运维面试总结 127
在此,笔者将在负载平衡的部署中遇到的一些问题总结出来,希望能对大家有所帮助。 负载失衡 在一个集群内部,如果某一个节点和其它节点相比流量不足,或者总是处于空闲状态,那么说明集群的负载失衡了。这样...
由国内著名技术社区联合推荐的2012年IT技术力作:《高性能Linux服务器构建实战:运维监控、性能调优与集群应用》,即将上架发行,此书从Web应用、数据备份与恢复、网络存储应用、运维监控与性能优化、集群高级应用等...
ext4文件系统的性能; Linux Virtual Server (LVS)之ksoftirqd...LINUX上中断在各个CPU之间的负载平衡问题; 网卡中断在多核cpu上的负载均衡; 性能测试计数器整理汇总; 在多核系统上网络数据转发实验和一点思考;
虽然平时运行没有问题,但可能在高负载的使用中就会出现不可预料的故障了。特别是Linux系统在某些应用上,是可以把硬件的性能发挥到极限的,但这样的硬件运行Windows可能是没有问题的。 2、确认电源供电充足 ...
全书以实战性为导向,所有内容都来自于作者多年实践经验的总结,同时从社区中收集了大量Linux运维人员遇到的有代表性的疑难问题,并给出了优秀的解决方案,实践指导意义极强。全书分为5个部分。Web应用篇详细介绍了...
算高还是低?怎么计算的? 系统在1,5,15分钟的平均工作负载,进程队列中的平均进程数量。 一般不能大于系统逻辑CPU的个数 /proc/loadavg 关键参数 Task:僵尸进程的数量 CPU:%wa IOwait Mem: Swap:要尽可能的少...
根据阿里官网上的介绍,sysAK,全称是system analyse kit,目前主要来自于阿里百万服务器运维经验,通过对这些经验进行抽象总结出典型场景,提供了一系列工具针对不同的运维需求。 主要包括: • 线上问题分析诊断...
实现前要考虑的问题.mkv26.procmon代码解析.mkv27.dummyload实现原理和代码解析.mkv28.procmon性能测试.mkv29.知识扩展和总结.mkv30.功能描述.mkv31.数据结构设计与分析.mkv32.数据结构代码解读.mkv33.网络IO模型与...
内容简介使用新的基于Web的健康状态汇总和诊断信息钻取进行方向明确的分析使用交互式报告进行趋势分析通过快速部署快速获得回报通过监视特权实现灵活的管理控制通过增强集成支持全程诊断和查询调优扩展探查更多应用...
LoadRunner出现error问题及解决方法总结 一、Step download timeout (120 seconds) 这是一个经常会遇到的问题,解决得办法走以下步骤: 1、修改run time setting中的请求超时时间,增加到600s,其中有三项的参数可以...
2、我现在有个程序,发现在Windows上运行得很慢,怎么判别是程序存在问题还是软硬件系统存在问题? 5 3、测试的策略有哪些? 5 4、正交表测试用例设计方法的特点是什么? 5 5、描述使用bugzilla缺陷管理工具对软件...
Nginx是用于HTTP,HTTPS,SMTP,POP3和IMAP协议的开源反向代理服务器,以及负载平衡器,HTTP缓存和Web服务器(原始服务器)。Nginx项目一开始就非常关注高并发,高性能和低内存使用。它获得了两节式BSD许可,并在...
开源实时日志分析ELK平台能够完美的解决我们上述的问题,ELK由ElasticSearch、Logstash和Kiabana三个开源工具组成。 官方网站:https://www.elastic.co/products Elasticsearch是个开源分布式搜索引擎,它的特点有...
│ 04.nginx的反向代理及负载均衡.avi │ 05.FastDFS介绍.avi │ 06.FastDFS安装步骤-文件上传.avi │ 07.配置nginx插件访问图片.avi │ 08.测试图片上传.avi │ 09.FastDFS工具类的使用.avi │ 10.图片上传过程分析...
但是 HashMap 原有的问题也都存在,比如在并发场景下使用时容易出现死循环。 final HashMap, String> map = new HashMap, String>(); for (int i = 0; i ; i++) { new Thread(new Runnable() { @Override public...