背景:
故障从硬盘IO到SLB到应用级别的,各自怀疑,各自检测,都各自坚持没问题,但情况是问题依旧。
而解决的方式是博客园不断的购买高配,但仍逃不出503的魔掌。
最终,博客园把怀疑点指向了啊里云的CPU。
啊里云,也怀疑是博客园自身程序问题。
对此问题,园里园外都比较关心,所以,在这背景下,我假设性的分析一下。
注意,以下内容纯属个人意淫,假设性内容,不代表符合事实,仅供各位看热门的参考:
由于啊里云和博客园各执一念,互不相让,所以个人个人只好给个折衷的猜测,都有问题,或者都没问题。
终结假设点就是:啊里云的低配配不上博客园的高需。
一:假设博客园是高需程序:
导致过渡依赖缓存,而原生的程序平均执行时间长,导致缓存失守部分不能负载大量并发,造成系统负担重,需要高配来支持。
二:假设啊里云没有提供高配置:
首先,要假设啊里云的云产品,虚拟化技术并没有超过业界领先水平Xen。
然后,我们看一下以下信息(摘自互联网),来了解两个概念,CPU与VCPU:
1: 物理CPU与虚拟VCPU
4vcpu=1cpu
4vcpu=2cpu
4vcpu=3cpu
4vcpu=4cpu
vcpu指虚拟CPU核心
cpu指物理CPU核心
因 此,当我们的虚拟客户机上如果运行的是运算密集型的任务的时候,就必须看看我们vcpu与物理CPU的对应,必要的情况下手工固定VCPU到物理CPU 上,使该虚拟机可以使用所有的物理核心;而如果你正在运行IO密集型任务,那么最好就分配一个超线程或整个核给dom0,并且固定其他的域让他们不能使用 CPU 0。
大体上就是说:虽然博客园买的是8核的,但是否真对应上物理机的8个核,这是未知数,实际情况是<=8。
所以,如果博客园买了一个高配置的8核(VCPU),实际只分配到4个物理CPU,性能就降低一半,变成低配了。
所以我们再假设:博客园运气很背:
如果4台机,随机都在物理4个核上,那就亏大了,高价钱买了低配置,如果在8个核上,也还是亏,如果在16个核上,还是亏一半。
所以,这是第一个假设成立,博客园就是跑在低配上。
如果,博客园运气特好,刚好分配到32个对应的物理机上,或者如果啊里云重视,亲自帮博客园改参数设置对应关系,那我们再看下面的假设。
补充假设:啊里云的CPU降低了主频,或者说是算法平均:
所以理论上,只要分配超底的主频,和限制使用人数,可以达到隔离作用。
但现实是,分配过低的主频,会造成CPU性能下降,资源极大浪费,所以,一般IDC商会分配在600MHz这般,这种低频一般够小站使用了。
这样如果是4个用户使用,4*600M=2.4G基本隔离,如果是8个用户使用,如果平均使用50%也基本隔离。
如果有4个人跑满,那剩下的4个人无论使用多少,肯定也就挂了,所以通过管理,只能关站,并只能清退这部分人了。
所以,如果啊里云把主频降的低,博客园就跑低配了;
如果啊里云主频设的高或没限制,那是不可能的,因为算法必须保证用户的平均使用率。
所以问题就是主频究竟在一个怎样的合适值中了(一般按国际标准,是1/4 CPU的限制,即4人用的标准,实际使用增加到6-8个人)。
根据大中华环境猜测,赚钱第一原则,总CPU基本核是固定的,而用户数是不断增加长的。
所以:反正限多少主频,你也看不出来,实际多少个人在共享使用,你也看不出来了。
根据以上实际性的假设,所以博客园本身就是运行在了降级的CPU上。
假设2:CPU资源竞争
首先确定的一点,从来就没有什么救世主,也没有CPU绝对隔离一说。
说CPU独立隔离,那是客服常见的忽悠手段,稍为看一下CPU的相关知识,就知道只能靠算法来决定怎么分配而已,隔离相对限制而言。
不信我们可以看下面的摘段(取自互联网):
背景:
在Xen环境下,内存与CPU分配是可以动态改变的。通过动态更改内存与CPU分配,可以达到优化虚拟机性能的目的。
通常情况下,我们的虚拟机分配物理cpu的资源为自动分配的。当在一个物理机器上面分配多个虚拟机,并且虚拟机的cpu总和超过实际物理机器的cpu数量时,并且各个虚拟机在高负载的情况下,高负载的虚拟机会调用其他虚拟机器的资源
这次发现的问题是我们公司某系统新上线了三台虚机服务器,上线后发现,在流量是平均分配的前提下,新上的机器的负载比老机器高,新上的机器负载在8左右,而老机器的负载在4左右,查询了机器的配置和参数设置,新老机器都一样。后来通过iostat指令,发现新机票的steal值非常高,大于在40左右,而老机器的steal只有0.1左右。经与老大咨询,steal的值高会代表实体机的CPU负载高。后经由老大发现,新上线的三台虚拟机在一台实体机上,每个虚机分配了四个CPU,而实体机是个8CPU的服务器,导致了三个虚机之间征用CPU。(cpu要打开超线程!!!)
通过上述说明,CPU间是存在资源竞争的,对于资源竞争问题。
一般的IDC商家,是会对长期占用高CPU的VPS租用用户进行清退的,因为这会影响到其它用户。
而对于啊里云,目前为了用户,也在推广期,估计在管理上,用户量大,人员少,目前估计不会有这种手段,所以类似于放任用户无限制的使用CPU。
所以啊里云的用户间更容易发生抢占资源的行为。
于是博客园的程序,平时好好的,某些情况CPU不行了,可能是CPU资源互抢了,抢不过人家就503了。
为什么博客园抢不过人家,这里我也有一个假设:
如果平时高的,到资源竞争时,优先级就变低,平时低的,到资源竞争时,优先级就会变高。
看博客园的cpu截图,平时也不低,所以真到资源竞争,就没啥优势了,抢不过人家了。
所以根据以上的假设:
1:如果博客园优化下程序,不再那么需要高需;
2:啊里云提供货真价实的32核高配(对同个用户名进行开通的所有主机按实核分配),再控好分配时的实际使用人数;
3:或者啊里云的用户自觉点,别老上那些吃CPU的站;
也许。。。
再次重申,以上内容纯属个人意淫YY假设,可能与事实存在较大出入。欢迎大伙讨论。 。。