中科三方 B站服务器故障 中科三方浅析其中原因及解决方案

7月13日23时许,哔哩哔哩客户端和网页均出现访问失败,无法打开。页面提示“拼命加载数据”。不久之后,“哔哩哔哩垮了”的话题也迅速出现在微博热搜上。
23时45分左右,哔哩哔哩的网站和APP恢复正常。14日凌晨,哔哩哔哩微博发布道歉声明,称部分服务器机房出现故障,无法访问。推测事故可能是服务器宕机造成的。

中科三方 B站服务器故障 中科三方浅析其中原因及解决方案


文章图片

什么是服务器宕机?
服务器宕机是指服务器由于某种原因出现故障,导致网络无法使用。对于网站来说,服务器宕机影响很大,不仅影响用户正常访问网站,还会影响网站在搜索引擎中的排名以及外部品牌形象。
服务器停机的原因
1.服务器环境的客观原因
如果机房突然断电,或者温度过高,服务器会死机关机,但发生这种情况的概率很小。正规IDC厂商会采取预防措施,备用电路、发电机和智能恒温系统可以有效防止这种情况发生。
2.服务器不堪重负
这是比较常见的情况,因为网站的流量突然大增,或者被程序攻击或毒害,导致服务器压力突然增大,资源枯竭,崩溃。
【中科三方 B站服务器故障 中科三方浅析其中原因及解决方案】3.不合理的应用
比如公司为了降低成本投入,租用了一些配置和性能较低的服务器,如果在这类服务器上安装了一些大规模的软件,很容易造成服务器过载,出现停机。
此外,还有很多细节会导致服务器宕机,比如环境配置、程序错误、数据库丢失等等。

中科三方 B站服务器故障 中科三方浅析其中原因及解决方案


文章图片

服务器停机解决方案
1.共享存储集群
在单机单柜的基础上,可以增加一台备用主机,构建基于共享存储的热备集群。增加一台物理服务器作为服务器的备机,在备机上部署业务系统,通过共享存储和热备集群产品,实现对应用的高可用性保护。如果主机上运行的系统因异常故障而停机,如应用服务异常、硬件设备故障等,可以将系统切换到备用主机,保证网站的持续运行和可访问性。
2.数据镜像集群
部署两台服务器,其中一台作为主机,主机产生的数据将直接写入主机的本地磁盘,通过网络实时传输到备机,保证两台服务器的数据一致性。在此基础上,如果主机出现故障,主机会在保证数据一致性的前提下,将数据库切换到备用运行,并继续提供外部服务,保证生产管理系统的持续运行。
3.分析停机切换
将分辨率指向多个IP,实现停机切换,保证网站可以持续访问。中科三方智能云分析系统具有停机监测和切换功能。当发现目标服务器宕机时,可以快速将分析切换到预先配置的备用服务器,以维护网站的可用性,保证用户可以通过原域名继续访问正常工作的备用服务器。
4.远程灾难恢复
根据系统环境、网络环境和容灾需求,构建了远程容灾方案。将数据从管理系统的生产服务器实时复制到容灾服务器,以确保两台机器之间的数据一致性。当主服务器出现故障时,可以通过备用服务器快速恢复业务系统;当本地机房完全瘫痪时,可以通过容灾机房的公网IP映射出服务,向外界提供服务。
5.云容灾
将生产中心的数据和业务实时灾难恢复到云端。在生产中心发生事故时,可以快速使用云中的灾难恢复系统,及时接管业务。在不同区域的云之间构建数据和业务灾难恢复,以最大限度地提高业务系统和数据的安全性。
6.双机并柜
采用多机双柜解决方案,为用户构建高容错、高安全性、高性能的集群容灾平台,实现服务器、磁盘阵列、存储通道等多个功能模块之间的相互协作和软硬件的完全容错,可以有效解决传统高可用方案的单点故障,为用户构建一个数据零丢失、高可用保护的先进集群容灾方案。

推荐阅读