Linux性能优化和监控系列(二)——分析CPU性能分析CPU性能

责编：admin ｜2015-02-11 10:39:11

　　top命令提供了监控CPU性能的基本功能，如果需要更加深入的挖掘CPU的性能问题， top所提供的信息不足以做到. 由于大多数人认为CPU性能是体现服务器性能的主要因素，所以在遇到性能问题时，通常会首先查看CPU的性能来分析服务器的性能问题. 但事实上，很多情况不是这样的，性能问题可能是由跟CPU相关的其他因素引起的，比如CPU等待I/O资源.对于下面两个task：

　　Task 1：

　　dd if=/dev/urandom of=/dev/null

　　Task 2：

　　#！/bin/bash

　　COUNTER=0

　　while true

　　dd if=/dev/urandom of=/root/file.$COUNTER bs=1M count=1

　　COUNTER=$(( COUNTER + 1 ))

　　[ COUNTER = 1000 ] && exit

　　done

　　执行Task 1和Task 2后， sy都会增高，但是执行Task 2时， wa也会增高，这说明Task 1和Task 2都会使sy增高，但是Task 2有时需要等待I/O资源，所以wa也会增高.

　　理解CPU性能

　　为了监控CPU到底在做什么，需要深入理解Linux内核是怎样工作的，其中一个重要的组件是运行时队列(run queue)，每个CPU核有一个运行时队列，在CPU为进程提供服务时，进程需要首先进入运行时队列等待CPU分配CPU时间. 运行队列里包括可运行的进程(runnable process)和被阻挡的进程(blocked process). Linux的scheduler根据进程的优先级决定哪个runnable process运行， blocked process不会竞争CPU时间. top命令的load arverage是所有runnable process和blocked process的负载的总体概述. 如果需要查看哪些进程处于runnable和blocked状态，可以通过vmstat来查看，如：

　　[root@rdhl ~]# vmstat

　　procs ———–memory———- —swap– —–io—- –system– —–cpu—–

　　r b swpd free buff cache si so bi bo in cs us sy id wa st

　　1 0 0 3747904 15492 27980 0 0 767 3 28 17 0 1 98 1 0

　　上下文切换和中断

　　在多任务操作系统中， Linux内核不断在不同进程之间进行上下文切换，这种上下文切换需要CPU保存旧进程的上下文信息以及检索上下文信息给新进程，因此上下文切换对CPU的性能代价是很高的. 减少上下文切换带来的性能问题最好的方法是减少上下文切换的次数，在多核CPU架构中可以实现，但是需要确保进程被锁定在指定CPU核上来阻止上下文切换. Linux进程调度器并不是进程发生上下文切换的唯一原因，另一个导致上下文切换发生的原因是硬件中断(hardware interrupts). 进程调度器使用时钟中断(timer interrupt)保证每个进程能获取公平的CPU时间. 正常情况下上下文切换的次数应该小于时钟中断的次数，如果发现上下文切换次数比时钟中断次数多，这种负载可能是由系统需要处理很多I/O或者长时间高强度系统调用引起. 因此了解时钟中断和上下文切换的关系对找到引起系统性能问题的原因提供线索. 使用vmstat -s可以查看系统上下文切换和时钟中断次数，这对查看高数量的上下文切换和IOWAIT的组合非常有帮助，通过这可以判定系统试着做大量的写操作，但是不能. 如下是vmstat -s的输出例子：

　　[root@rdhl ~]# vmstat -s

　　3924700 total memory

　　218964 used memory

　　32152 active memory

　　43332 inactive memory

　　3705736 free memory

　　22400 buffer memory

　　31492 swap cache

　　4063224 total swap

　　0 used swap

　　4063224 free swap

　　7643 non-nice user cpu ticks

　　0 nice user cpu ticks

　　1390112 system cpu ticks

　　15353492 idle cpu ticks

　　110105 IO-wait cpu ticks

　　0 IRQ cpu ticks

　　185 softirq cpu ticks

　　0 stolen cpu ticks

　　84007231 pages paged in

　　333713 pages paged out

　　0 pages swapped in

　　0 pages swapped out

　　16203245 interrupts

　　2121904 CPU context switches

　　1395818922 boot time

　　5780 forks

　　另一个查看CPU性能的指标是中断数，中断数可以从/proc/interrupts查看，/pro/interrupts包含每种类型的中断被处理的次数. 如果中断数很高，那表示Linux内核花很多时间处理中断而导致只有少部分时间处理其他进程.

　　[root@rdhl ~]# cat /proc/interrupts

　　CPU0 CPU1

　　0： 142 0 IO-APIC-edge timer

　　1： 7 1 IO-APIC-edge i8042

　　3： 1 0 IO-APIC-edge

　　4： 1 0 IO-APIC-edge

　　7： 0 0 IO-APIC-edge parport0

　　8： 0 0 IO-APIC-edge rtc0

　　9： 0 0 IO-APIC-fasteoi acpi

　　12： 108 2 IO-APIC-edge i8042

　　14： 0 0 IO-APIC-edge ata_piix

　　15： 107 1 IO-APIC-edge ata_piix

　　24： 0 0 PCI-MSI-edge pciehp

　　25： 0 0 PCI-MSI-edge pciehp

　　26： 0 0 PCI-MSI-edge pciehp

　　27： 0 0 PCI-MSI-edge pciehp

　　28： 0 0 PCI-MSI-edge pciehp

　　29： 0 0 PCI-MSI-edge pciehp

　　30： 0 0 PCI-MSI-edge pciehp

　　31： 0 0 PCI-MSI-edge pciehp

　　32： 0 0 PCI-MSI-edge pciehp

　　33： 0 0 PCI-MSI-edge pciehp

　　34： 0 0 PCI-MSI-edge pciehp

　　35： 0 0 PCI-MSI-edge pciehp

　　36： 0 0 PCI-MSI-edge pciehp

　　37： 0 0 PCI-MSI-edge pciehp

　　38： 0 0 PCI-MSI-edge pciehp

　　39： 0 0 PCI-MSI-edge pciehp

　　40： 0 0 PCI-MSI-edge pciehp

　　41： 0 0 PCI-MSI-edge pciehp

　　42： 0 0 PCI-MSI-edge pciehp

　　43： 0 0 PCI-MSI-edge pciehp

　　44： 0 0 PCI-MSI-edge pciehp

　　45： 0 0 PCI-MSI-edge pciehp

　　46： 0 0 PCI-MSI-edge pciehp

　　47： 0 0 PCI-MSI-edge pciehp

　　48： 0 0 PCI-MSI-edge pciehp

　　49： 0 0 PCI-MSI-edge pciehp

　　50： 0 0 PCI-MSI-edge pciehp

　　51： 0 0 PCI-MSI-edge pciehp

　　52： 0 0 PCI-MSI-edge pciehp

　　53： 0 0 PCI-MSI-edge pciehp

　　54： 0 0 PCI-MSI-edge pciehp

　　55： 0 0 PCI-MSI-edge pciehp

　　56： 1468 667997 PCI-MSI-edge vmw_pvscsi

　　57： 367182 0 PCI-MSI-edge eth0-rxtx-0

　　58： 13 115039 PCI-MSI-edge eth0-rxtx-1

　　59： 0 0 PCI-MSI-edge eth0-event-2

　　NMI： 0 0 Non-maskable interrupts

　　LOC： 13249018 2561591 Local timer interrupts

　　SPU： 0 0 Spurious interrupts

　　PMI： 0 0 Performance monitoring interrupts

　　IWI： 0 0 IRQ work interrupts

　　RES： 35986 18866 Rescheduling interrupts

　　CAL： 298172 228 Function call interrupts

　　TLB： 1052 2847 TLB shootdowns

　　TRM： 0 0 Thermal event interrupts

　　THR： 0 0 Threshold APIC interrupts

　　MCE： 0 0 Machine check exceptions

　　MCP： 285 285 Machine check polls

　　ERR： 0

　　MIS： 0

　　使用vmstat

　　虽然top能监控CPU的大部分信息，但是不能提供更加详细的CPU信息，而vmstat可以堪当此任. vmstat有两种使用方式，一种是sample mode，在这种方式中， vmstat每个一段时间获取当前系统信息，如每隔3秒执行一次， vmstat 3. 另一种是加-s选项，在这种方式中， vmstat获取从系统启动后的系统统计信息，除了CPU信息，也包含memory， I/O， swap等.

　　上下文切换次数.

　　us CPU花在用户空间的时间百分比.

　　sy CPU花在系统空间的时间百分比.

　　id CPU空闲百分比.

　　wa CPU等待I/O的时间百分比

上一篇：安卓防火墙 PS DroidWall

下一篇：NFS报错一例