默认

开启辅助访问

登录立即注册

即时通讯网资讯即时通讯云 LeanCloud 3月29日因高负载发生连锁服务故障

即时通讯网 › 首页 ›资讯 › 查看内容

想开发IM：买成品怕坑？租第3方怕贵？找开源自已撸？尽量别走弯路了... 找站长给点建议

推荐即时通讯资料太杂？看技术专辑吧! / 需要帮助？去社区发贴吧! / 技术交流群：185926912

即时通讯云 LeanCloud 3月29日因高负载发生连锁服务故障

52im.net · 8 年前 | 阅读（17376）· 评论（1）| 来源 LeanCloud 转发收藏0

摘要即时通讯云 LeanCloud 3月29日因少量大用户量应用的高在线量而发生了连锁服务故障，这个问题相信不是第1次发生，也不会是最后一次。对于即时通讯云服务商来说，要想在成本和服务质量上达成平衡，暂期内只能是个梦。

2016 年 3 月 29 日晚间，LeanCloud 平台上的多个应用进行了推广活动，激增的访问量给我们的数据存储和实时通信服务带来了较大压力。从 20:50 至 22:15 有多次流量高峰出现，我们多台 Web 服务器的网络吞吐包超过虚拟机的能力极限，内外网通信中断，从而导致 HTTP 服务多次出现间歇性故障（数据存储 API 以及依赖于它的服务也都间歇性不可用）。具体情况汇报如下：

故障时间

20:53 - 21:03（持续约 10 分钟）数据存储 API 服务约 50% 的请求超时。
21:17 - 21:40（持续约 23 分钟）数据存储 API 服务约 50% 的请求超时。
22:00 - 22:15（持续约 15 分钟）数据存储 API 服务约 12.5% 的请求超时。

故障总共持续约 48 分钟。

影响范围

本次故障只影响中国节点，美国节点的所有服务均工作正常。在故障期间凡是向 LeanCloud 平台发送过请求，并使用了数据存储服务的活跃应用都受到了影响；我们的统计服务也在短时间内无法正常接收来自应用的事件上报。

事故过程

20:52：内部监控系统报警，显示多个 Web 服务器节点出现故障。我们立刻上线进行紧急处理，在排除后端服务问题之后，开始追查前端资源和带宽配额。
21:03：由于部分应用流量回落，同时也由于我们临时大幅增加了出口带宽，服务暂时恢复正常。
21:05：我们开始扩容前端机集群，以应对接下来可能再次出现的流量高峰。
21:17：前端机扩容时碰到了虚拟机 OS 故障以及网络环境问题，未能及时完成。此时恰好部分应用又迎来一次流量高峰，前端机再次吃紧。
21:30：修复过程将近半小时，于是我们启动了公告和通知流程，在微博和用户群里发出通告。
21:40：流量自然回落，前端机再次恢复正常，我们的平台开始正常处理 API 请求。
22:00：线上部分前端机出现物理故障，我们又开始对它们进行紧急处理，期间有大约 1/8 的 API 请求丢失。
22:15：新的前端机节点经过手动处理后终于达到可用状态，并加入集群，完成了扩容，至此全部服务彻底被恢复。

后续改进措施

增加新的监控措施，对前端机网络入包量进行监控，防止网络转发量超过 VM 能力限制。
调整前端机 VM 配置，使用高包量机型，增大前端机的处理能力。
改进前端机扩容方式，使用 docker 镜像来加快新节点部署上线的进度。
公告流程中增加短信通知渠道，确保信息及时通知到开发者。

来源：即时通讯网 - 即时通讯开发者社区！

1 推荐

JackJiang

旧一篇：
音视频云声网Agora：从demo到实用，中间还差1万个WebRTC 新一篇：
融云SDK新版发布（ 2.4.11 Stable版）[小幅更新]

相关阅读

网易云信活动：程序员猴年福利包发放中（2月25~3月31）

融云完成 A 轮 5000万元融资，将进一步丰富即时通讯云应用场景

网易云信实时音视频技术的三大优势

环信宣布举办首届编程大赛：“让世界感受中国程序员的力量！”

基于XMPP协议的开源IM客户端Spark发布2.7.6正式版

即时通讯云环信：新增红包功能，让APP拥有向微信看齐的能力

网易云信：新增无限人数的实时语音聊天室功能

开源高并发网络应用框架Netty发布4.0.35.Final版

基于XMPP协议的开源IM服务端Openfire发布4.0.2正式版

音视频云声网Agora：从demo到实用，中间还差1万个WebRTC

融云SDK新版发布（ 2.4.11 Stable版）[小幅更新]

容联即时通讯云产品战略暨融资发布会 [4月14日北京]

即时通讯云 LeanCloud 因DDoS攻击致即时通讯服务瘫痪

[活动] 容联即时通讯云启动4月注册/认证送大礼活动

即时通讯云服务商融云将于4月12日迁移数据中心

开源实时音视频技术WebRTC的现状

融云SDK新版发布（ 2.5.0 Stable版、2.1.0 for WEB版）

即时通讯云 LeanCloud 动态：服务稳定性提升及新的计费方式

XMPP协议开源IM客户端库Smack发布4.1.7版

即时通讯云 LeanCloud 4月22日存储集群因故瘫痪

[资讯] LeanCloud 6月30日即时通讯服务瘫痪43分钟！

[资讯] LeanCloud 7月13日即时通讯服务瘫痪48分钟！

查看全部评论 (1) 发表评论

最新评论

JackJiang 8 年前: 这种故障，说白了就是最典型的负载导致的。

对于用云IM的即时通讯应用来说，前期开发有多爽，后期的运维就有多痛苦，因为最核心的东西一样都不受自已控制，而IM云服务商，受制于成本等因素，很多时候服务质量只能往后放，能扛就扛了。

而对于自主开的IM来说，前期虽然技术门槛高，开发很痛苦，但过了这些个槛，后期的运维就很轻松了，要什么方案就能有什么方案，毕竟是自已的孩子。

个人对云IM还是有些怕，以上意见仅供参考。

微信扫一扫关注！

相关分类

程序员那点事

即时通讯方案hot[淘宝下单]

MobileIMSDK (v6.4精编版)

开源移动端即时通讯框架。

快速入门 / 性能 / 指南 / 提问
MobileIMSDK-Web (有偿开源)

轻量级Web端即时通讯框架。

详细介绍 / 精编源码 / 手册教程
RainbowAVnew (有偿开源)

移动端实时音视频框架。

详细介绍 / 性能测试 / 安装体验
RainbowChat (技术转让)

基于MobileIMSDK的IM系统。

详细介绍 / 产品截图 / 安装体验
RainbowChat-Web (技术转让)

一套产品级Web端IM系统。

详细介绍 / 产品截图 / 演示视频

本月热门资讯

1[动态] IM产品RainbowChat-iOS端

2[文集] 即时通讯技术文集（第35

技术好文分类[更多]

TCP/IP详解经典网络编程基础 NIO编程精选通信协议选型 IM架构篇 IM安全篇 IM群聊篇 IM热门讨论心跳保活篇 IM综合资料实时音视频开发 Web端实时通信推送技术好文 IM大厂技术分享社交产品总结精品资源下载通信技术高阶程序人生

最新社区主题[更多]

1求教IM会话列表数据和本地数据处

2长连接网关技术专题(十一)：揭秘

3移动端IM产品RainbowChat[专业版

4[已解决] 用MobileIMSDK的Java T

5微信团队分享：来看看微信十年前

6移动端IM产品RainbowChat[专业版

7IM技术干货：假如你来设计微信的

8大型IM工程重构实践：企业微信An

即时通讯网　

实时推送、IM等即时通讯相关技术的学习、交流与分享的平台。专业的资料、专业的人、专业的社区！让即时通讯技术能更好传播与分享。

平等开放分享传承

商务/合作：business@52im.net
投稿/报道：contact@52im.net

友情链接[友链交换]

关于

微信公众号new

即时通讯网微信公众号

—— 打开微信扫一扫，关注本站的公众号 ——

Copyright © 2014-2024 即时通讯网 - 即时通讯开发者社区 / 版本 V4.4

苏州网际时代信息科技有限公司 (苏ICP备16005070号-1）

返回顶部