linux – Percona 99%的磁盘IO峰值

因此,我们有一个服务器,在磁盘I / O中看似随机的峰值,随机时间高达99.x%,没有明显的原因,保持高位一段时间,然后再回落.这不是一个问题,但最近磁盘I / O长时间保持在99%,在某些情况下长达16小时.

该服务器是一个专用服务器,具有4个cpu内核和4 GB RAM.它正在运行Ubuntu Server 14.04.2,运行percona-server 5.6,没有其他主要功能.它正在监控停机时间,我们有一个屏幕,永久显示我们处理的服务器的cpu / RAM /磁盘I / O.服务器也经常被修补和维护.

此服务器是副本链中的第3个,并且作为故障转移计算机存在. MySQL数据流如下.

大师 – >主人/奴隶 – >问题服务器

所有3台机器都有相同的规格,并由同一家公司托管.问题服务器与第一个和第一个数据中心位于不同的数据中心.第二.

‘iotop’工具向我们显示磁盘I / O是由’jbd2 / sda7-8’进程引起的.据我们所知,它处理文件系统日志记录,并将事物刷新到磁盘.我们的’sda7’分区是’/ var’,我们的sda8分区是/ home.什么都不应该定期读/写/ home.停止MysqL服务导致磁盘I / O立即降回到正常水平,所以我们相当确定它是导致问题的percona,这将与它是/ var分区匹配,因为这是我们的MysqL数据目录驻留(/ var / lib / MysqL).

我们使用NewRelic来监控所有服务器,当磁盘I / O出现高峰时,我们看不到任何可能导致它的东西.负载平均值约为2. cpu使用率徘徊在~25%左右,NewRelic认为这是由“IO等待”而非特定进程引起的.

我们的MysqL配置文件是通过Percona配置向导和我们客户应用程序所需的一些设置的组合生成的,但没有什么特别的花哨.

MysqL配置 – http://pastebin.com/5iev4eNa

我们已尝试以下方法尝试解决此问题:

>跑到MysqLtuner.pl看看是否有什么明显的错误.结果与其他2个数据库服务器上的相同工具的结果非常相似,并且在使用之间没有太大变化.
>使用vmstat,iotop,iostat,pt-diskstats,fatrace,lsof,pt-stalk以及其他可能的东西,但没有明显的东西跳出来.
>调整’innodb_flush_log_at_trx_commit’变量.尝试将其设置为0,1和& 2,但似乎没有任何影响.这应该改变了MysqL将事务刷新到日志文件的频率.
>当磁盘I / O很高时,MysqL“show full processlist”非常有趣,它只显示从主设备读取的从设备.

工具的一些输出显然很长,所以我会给出pastebin链接,我无法复制粘贴iotop的输出,所以我提供了一个屏幕截图.

iotop

pt-diskstats:http://pastebin.com/ZYdSkCsL

当磁盘I / O为高时,“vmstat 2”向我们显示正在写入的内容主要是因为“bo”(缓冲区输出),这与磁盘日志记录(刷新缓冲区/ RAM到磁盘)相关

http://pastebin.com/E3LWzwjj

“lsof -p MysqL-pid”(列出进程的打开文件)向我们显示正在写入的文件主要是/ var / lib / MysqL目录中的.MYI和.MYD文件,以及master.info和relay- bin和relay-log文件.即使没有指定MysqL进程(因此任何文件都写在整个服务器上),输出也非常相似(主要是MysqL文件,其他任何东西都没有)这证实了它绝对是由Percona引起的.

当磁盘I / O为高时,“seconds_behind_master”会增加.我不知道它们到底发生了哪种方式. “seconds_behind_master”也会暂时从正常值跳到任意大的值,然后很快就会恢复正常,有人建议这可能是由网络问题引起的.

显示奴隶状态’ – http://pastebin.com/Wj0tFina

RAID控制器(3ware 8006)没有任何缓存功能;有人还表示糟糕的缓存性能可能导致问题.控制器具有与同一客户的其他服务器上的卡相同的固件,版本,修订版等(尽管是Web服务器),所以我相当确定它没有错.我也运行了数组的验证,它回来了.我们还有RAID检查脚本,它会提醒我们任何更改.

与第二个数据库服务器上的网络速度相比,网络速度很差,所以我想这可能是一个网络问题.这也与磁盘I / O变高之前的带宽峰值有关.然而,即使网络“尖峰”,它也不会达到大量流量,与平均值相比只是相对较高.

网络速度(使用iPerf生成到AWS实例)

问题服务器 – 0.0-11.3秒2.25 MBytes 1.67 Mbits / sec
第二台服务器 – 0.0-10.0秒438 MBytes 366 Mbits / sec

除了缓慢之外,网络看起来还不错.没有丢包,但服务器之间有一些慢跳

很乐意也提供任何相关命令的输出,但我只能添加2个链接到这篇文章,因为我是一个新用户:(

编辑我们与我们的托管服务提供商就此问题取得了联系,他们非常友好地将硬盘交换为相同大小的SSD.我们将RAID重建到这些SSD上,但不幸的是问题仍然存在.

解决方法

您使用的是哪个版本的MysqL服务器?
在5.5之后,您可以使用performance_schema从数据库获取实时统计信息.
我开始查询
table_io_waits_summary_by_table
 table_io_waits_summary_by_table
 table_lock_waits_summary_by_table

看看究竟发生了什么.

另一种解决方案是,如果您检查缓冲池使用情况,那么有可能需要移动到内存的冷页面

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


在Linux上编写运行C语言程序,经常会遇到程序崩溃、卡死等异常的情况。程序崩溃时最常见的就是程序运行终止,报告 Segmentation fault (core dumped) 错误。而程序卡死一般来源于代码逻辑的缺陷,导致了死循环、死锁等问题。总的来看,常见的程序异常问题一般可以分为 非法内存访
git使用小结很多人可能和我一样,起初对git是一无所知的。我也是因为一次偶然的机会接触到git,并被它强大的功能所蛰伏。git其实就是一种版本控制工具,就像svn一样,但是git是分布式的。我不想给git打广告,我们直入正题——git能帮我们做什么?1)源码版本控制。平常写一写demo程序可能和g
1. 操作系统环境、安装包准备 宿主机:Max OSX 10.10.5 虚拟机:Parallel Desktop 10.1.1 虚拟机操作系统:CentOS 7 x86_64 DVD 1511.iso Oracle:linux.x64_11gR2_database_1of2.zip linux.x6
因为业务系统需求,需要对web服务作nginx代理,在不断的尝试过程中,简单总结了一下常见的nginx代理配置。 1. 最简反向代理配置 在http节点下,使用upstream配置服务地址,使用server的location配置代理映射。 upstream my_server { server 10
Linux模块机制浅析 Linux允许用户通过插入模块,实现干预内核的目的。一直以来,对linux的模块机制都不够清晰,因此本文对内核模块的加载机制进行简单地分析。 模块的Hello World! 我们通过创建一个简单的模块进行测试。首先是源文件main.c和Makefile。 f...
一、Hadoop HA的Web页面访问 Hadoop开启HA后,会同时存在两个Master组件提供服务,其中正在使用的组件称为Active,另一个作为备份称为Standby,例如HDFS的NameNode、YARN 的ResourceManager。HDFS的web页面只有通过Active的Name
一个简单的通用Makefile实现Makefile是Linux下程序开发的自动化编译工具,一个好的Makefile应该准确的识别编译目标与源文件的依赖关系,并且有着高效的编译效率,即每次重新make时只需要处理那些修改过的文件即可。Makefile拥有很多复杂的功能,这里不可能也没必要一一介绍,为了
Linux内核源码分析方法一、内核源码之我见Linux内核代码的庞大令不少人“望而生畏”,也正因为如此,使得人们对Linux的了解仅处于泛泛的层次。如果想透析Linux,深入操作系统的本质,阅读内核源码是最有效的途径。我们都知道,想成为优秀的程序员,需要大量的实践和代码的编写。编程固然重要,但是往往
题记:自从接触到“跳板机”的概念后,一直就被烦不胜烦的机器名,ip地址,用户名,密码折腾的死去活来,心说能有个小精灵随时帮我输入那些重复的登录信息就好了。我见过最挫的方式就是用记事本把一堆机器的ip、登录用户、密码记录下来,每次登录机器就像是一场战斗:打开笔记本 勾选复制 写ssh命令 登录 再打开
统计一下你写过多少代码最近整理了一下自己从开始学习编程以来写过的程序和代码,林林总总,花了不少的时间,最后把一些自认为还算不错的代码提交到github上做一个简单的分类和备份。当然我并不奢求它们能成为多好的开源代码,只是希望通过这种方式分享自己的劳动成果罢了。如果大家有兴趣可以访问我的github,
一直以来被Linux的hostname和fqdn(Fully Qualified Domain Name)困惑了好久,今天专门抽时间把它们的使用细节弄清了。 一、设置hostname/fqdn
在Linux系统内设置hostname很简单,如: $ hostname florian 如果...
Linux的原子操作与同步机制 并发问题 现代操作系统支持多任务的并发,并发在提高计算资源利用率的同时也带来了资源竞争的问题。例如C语言语句“count++”在未经编译器优化时生成的汇编代码为。 当操作系统内存在多个进程同时执行这段代码时,就可能带来并发问题。 假设count变量初始值为0。进程1
最简git Server配置如何保持多台计算机的项目代码的同步更新呢?通过在一个公用计算机上开启git服务,任何能与该计算机互联的终端都可以同步最新的项目代码。每个终端所负责的就是下载代码更新,修改代码,提交代码更新,这些工作产生的变化能全部反应到git服务器上。同时,这么做也能避免使用github
建议收藏!!!Linux 服务器必备的安全设置~
QQ 用 Electron 重构后,终实现 Linux、macOS、Windows 三端架构统一!
Shell 分析日志文件高效命令,超级好用!
Linux下的Docker容器网络:如何设置容器间的网络连接和通信?
Linux 服务器必备的安全设置,建议收藏!!!
以为很熟悉 Linux,万万没想到在生产环境翻车了.....
Linux 或 Windows 上实现端口映射