请选择 进入手机版 | 继续访问电脑版

默认
即时通讯网 资讯 [资讯] LeanCloud 8月5日即时通讯服务瘫痪半小时!
即时通讯网 首页 资讯 查看内容

[资讯] LeanCloud 8月5日即时通讯服务瘫痪半小时!

JackJiang · 6 个月前 | 阅读(4057)· 评论(4| 来源 LeanCloud 转发 收藏

摘要 即时通讯云服务商LeanCloud 2016年8月5日因由于缓存集群超负载崩溃,导致即时通讯服务瘫痪30分钟之久!
以下消息来自LeanCloud官方:

8 月 5 日晚上 7 点 10 分开始,LeanCloud 中国节点上的某一缓存集群因为流量过大,CPU 资源被占满而停止了服务,从而导致数据存储及依赖它的服务(云引擎、推送、实时聊天)出现约半小时的中断,在此期间有部分应用可能会遇到请求无法完成的情况。详细报告如下。

故障节点和影响范围

只有中国节点出现了问题,受影响的服务与时间段列举如下,其他服务未受到影响。

服务名区域受影响时段范围
数据存储中国19:10 – 19:41全部不可用
云引擎中国19:10 – 19:41全部不可用
实时通信中国19:10 – 19:41部分不可用(消息 hook 功能不可用、离线推送延迟)
消息推送中国19:10 – 20:02推送大面积延迟
统计服务中国19:10 – 20:23全部不可用(数据收集接口关闭)

故障时间线

  • 19:10:内部监控报警,确认 redis 异常(CPU 资源占满,失去响应)。
  • 19:13:redis 机器无法直接重启,开始尝试逐步关停其他服务(依次是推送、聊天推送、云引擎、统计),以降低请求压力。
  • 19:41:redis 集群恢复可用,同时数据存储、云引擎和实时通信三个服务开始恢复。
  • 20:02:消息推送服务开始恢复,redis 集群运行正常。
  • 20:23:成功为统计服务单独搭建 redis 集群,统计服务的数据收集接口开放,新老 redis 集群运行正常。至此所有服务全部恢复。

后续措施

  • 将该 redis 集群从业务层面进行拆分,小集群化。
  • 将 redis 集群进行高可用架构升级,避免单点故障。
  • 对集群加强容灾演练,确保异常条件下服务稳定。

对于本次故障,我们诚恳地向您道歉。 我们将免掉您账户中全部应用在 8 月 5 日当天的所有费用 ,以表诚意。

即时通讯网 - 即时通讯开发者社区! 来源: - 即时通讯开发者社区!

0 推荐

相关阅读

amumu 6 个月前
这么多人都想做云服务商,哪有那么容易。
JackJiang 6 个月前
引用自 你好二哥: “LeanCloud还算做的很不错了,至少很透明。”
是啊,我也是实事求是,个人感觉LeanCloud相当有技术气质。
你好二哥 6 个月前
引用自 JackJiang: “1个月挂1次,这次是因为redis挂掉了”
LeanCloud还算做的很不错了,至少很透明。
JackJiang 6 个月前
1个月挂1次,这次是因为redis挂掉了

Processed in 0.125000 second(s), 24 queries , Gzip On.

返回顶部