博客园与啊里云的故障假设:高需与低配(补充了降频论)

2年前 (2022) 程序员胖胖胖虎阿
206 0 0

背景: 

博客园自从上了啊里云,故障频繁,使得大伙每星期都在看故障报告,对503不知不觉也建立直了深厚的友谊。
故障从硬盘IO到SLB到应用级别的,各自怀疑,各自检测,都各自坚持没问题,但情况是问题依旧。
而解决的方式是博客园不断的购买高配,但仍逃不出503的魔掌。
最终,博客园把怀疑点指向了啊里云的CPU。
啊里云,也怀疑是博客园自身程序问题。 
对此问题,园里园外都比较关心,所以,在这背景下,我假设性的分析一下。

 

注意,以下内容纯属个人意淫,假设性内容,不代表符合事实,仅供各位看热门的参考:

 

由于啊里云和博客园各执一念,互不相让,所以个人个人只好给个折衷的猜测,都有问题,或者都没问题。 

 

终结假设点就是:啊里云的低配配不上博客园的高需。

 

一:假设博客园是高需程序: 

我们假设博客园的程序, 在程序上可能混杂多款时尚组件,而无法掌握原理和核心,进而在优化上没能发挥;
导致过渡依赖缓存,而原生的程序平均执行时间长,导致缓存失守部分不能负载大量并发,造成系统负担重,需要高配来支持。

 

二:假设啊里云没有提供高配置:

首先,要假设啊里云的云产品,虚拟化技术并没有超过业界领先水平Xen。 

然后,我们看一下以下信息(摘自互联网),来了解两个概念,CPU与VCPU:

 

1: 物理CPU与虚拟VCPU

xen客户机启动的时候,虚拟CPU是由dom0系统决定固定在某个物理CPU核心上的,这个分配具有随机性,比如我们的机器上有2个双核的处理 器,也就是说有4个cpu核心,同时我们分配4个核给我们的虚拟客户机,那么我们在客户机也看到4个cpu核心的,但是这四个vcpu核心并不是真的对应 着物理机器上的四个核,可能四个虚拟cpu对应的是物理cpu中的1~4个核,也就是说有下面4个可能:
4vcpu=1cpu
4vcpu=2cpu
4vcpu=3cpu
4vcpu=4cpu
vcpu指虚拟CPU核心
cpu指物理CPU核心
因 此,当我们的虚拟客户机上如果运行的是运算密集型的任务的时候,就必须看看我们vcpu与物理CPU的对应,必要的情况下手工固定VCPU到物理CPU 上,使该虚拟机可以使用所有的物理核心;而如果你正在运行IO密集型任务,那么最好就分配一个超线程或整个核给dom0,并且固定其他的域让他们不能使用 CPU 0 

 

大体上就是说:虽然博客园买的是8核的,但是否真对应上物理机的8个核,这是未知数,实际情况是<=8。

所以,如果博客园买了一个高配置的8核(VCPU),实际只分配到4个物理CPU,性能就降低一半,变成低配了。

 

所以我们再假设:博客园运气很背:

 

博客分开买了4台8核,一共号称32核跑博客站,根据上述理论,实际真实CPU可能在(1-32个)具体有几个还得看人品。
如果4台机,随机都在物理4个核上,那就亏大了,高价钱买了低配置,如果在8个核上,也还是亏,如果在16个核上,还是亏一半。
所以,这是第一个假设成立,博客园就是跑在低配上。

 

如果,博客园运气特好,刚好分配到32个对应的物理机上,或者如果啊里云重视,亲自帮博客园改参数设置对应关系,那我们再看下面的假设。

 

补充假设:啊里云的CPU降低了主频,或者说是算法平均:

 

我们假设博客园买的8核CPU2.4GHmz主频,啊里云按8人用标准给每个VCPU分配了300MHz,这样就实现了就算8个用户都跑满虚拟的100%CPU,总物理也才刚好100%。
所以理论上,只要分配超底的主频,和限制使用人数,可以达到隔离作用。
 
但现实是,分配过低的主频,会造成CPU性能下降,资源极大浪费,所以,一般IDC商会分配在600MHz这般,这种低频一般够小站使用了。

这样如果是4个用户使用,4*600M=2.4G基本隔离,如果是8个用户使用,如果平均使用50%也基本隔离。

如果有4个人跑满,那剩下的4个人无论使用多少,肯定也就挂了,所以通过管理,只能关站,并只能清退这部分人了。
 
所以,如果啊里云把主频降的低,博客园就跑低配了;

 

如果啊里云主频设的高或没限制,那是不可能的,因为算法必须保证用户的平均使用率。
所以问题就是主频究竟在一个怎样的合适值中了(一般按国际标准,是1/4 CPU的限制,即4人用的标准,实际使用增加到6-8个人)。

 

根据大中华环境猜测,赚钱第一原则,总CPU基本核是固定的,而用户数是不断增加长的。
所以:反正限多少主频,你也看不出来,实际多少个人在共享使用,你也看不出来了。 

 

 

根据以上实际性的假设,所以博客园本身就是运行在了降级的CPU上。 

 

假设2:CPU资源竞争

首先确定的一点,从来就没有什么救世主,也没有CPU绝对隔离一说。

说CPU独立隔离,那是客服常见的忽悠手段,稍为看一下CPU的相关知识,就知道只能靠算法来决定怎么分配而已,隔离相对限制而言。

不信我们可以看下面的摘段(取自互联网):

 

2012-05-22 17:22:20|  分类: 虚拟化-XenServer |字号 订阅
背景:
在Xen环境下,内存与CPU分配是可以动态改变的。通过动态更改内存与CPU分配,可以达到优化虚拟机性能的目的。
通常情况下,我们的虚拟机分配物理cpu的资源为自动分配的。当在一个物理机器上面分配多个虚拟机,并且虚拟机的cpu总和超过实际物理机器的cpu数量时,并且各个虚拟机在高负载的情况下,高负载的虚拟机会调用其他虚拟机器的资源
这次发现的问题是我们公司某系统新上线了三台虚机服务器,上线后发现,在流量是平均分配的前提下,新上的机器的负载比老机器高,新上的机器负载在8左右,而老机器的负载在4左右,查询了机器的配置和参数设置,新老机器都一样。后来通过iostat指令,发现新机票的steal值非常高,大于在40左右,而老机器的steal只有0.1左右。经与老大咨询,steal的值高会代表实体机的CPU负载高。后经由老大发现,新上线的三台虚拟机在一台实体机上,每个虚机分配了四个CPU,而实体机是个8CPU的服务器,导致了三个虚机之间征用CPU。(cpu要打开超线程!!!)

 

通过上述说明,CPU间是存在资源竞争的,对于资源竞争问题。

一般的IDC商家,是会对长期占用高CPU的VPS租用用户进行清退的,因为这会影响到其它用户。

而对于啊里云,目前为了用户,也在推广期,估计在管理上,用户量大,人员少,目前估计不会有这种手段,所以类似于放任用户无限制的使用CPU。

所以啊里云的用户间更容易发生抢占资源的行为。 

于是博客园的程序,平时好好的,某些情况CPU不行了,可能是CPU资源互抢了,抢不过人家就503了。

 

为什么博客园抢不过人家,这里我也有一个假设:

 

虚拟技术有两个标识来标识VCPU,就是under和over,记录每个VCPU平均的负载。
如果平时高的,到资源竞争时,优先级就变低,平时低的,到资源竞争时,优先级就会变高。
看博客园的cpu截图,平时也不低,所以真到资源竞争,就没啥优势了,抢不过人家了。

 

所以根据以上的假设:

1:如果博客园优化下程序,不再那么需要高需;

2:啊里云提供货真价实的32核高配(对同个用户名进行开通的所有主机按实核分配),再控好分配时的实际使用人数;

3:或者啊里云的用户自觉点,别老上那些吃CPU的站;

也许。。。

 

再次重申,以上内容纯属个人意淫YY假设,可能与事实存在较大出入。欢迎大伙讨论。 。。

博客园与啊里云的故障假设:高需与低配(补充了降频论)

 

相关文章

暂无评论

暂无评论...