故事背景
公司宣布要处理一件紧急事件,要求相关部门的员工做视频剪辑并将结果转存至一台存储资源(这里我们称为:control)上,这里运维部门要做好协调工作(为防止外泄,视频资源需要运维人员进行传输),具体为:
- 在指定的电脑上(这里我们称为agent1、agent2…)安装相关软件;
- 为防止源视频泄漏,运维需要在agent端做好策略(禁止连接公网;禁止U盘等外设拷贝);
- agent要与control能够进行网络连接;
- 源视频资源特殊加密,所以agent端要配置视频解密功能;
大致需求已经整理完成,看起来工作量也不大,在接到通知后,我们大致过了下实施方案,觉得没什么技术难点就通过了,方案基本实施步骤分为5部分:
- 准备电脑;
- 调试网络;
- 调试电脑;
- 准备源视频服务器(这里我们称为:dataCenter)。
这里说下大致思路:源视频资源–> dataCenter –> agent–>control,这里的资源传输基本都是内网完成,所以不考虑公网延时问题。基本思路搞定!
准备工作
接下来,运维同学们开始准备机器,配配置策略,调试网络,优化配置(agent、dataCener、contorl都为windows电脑),运维同学们忙的不亦乐乎,应为工作内容简单。
出现意外
源视频资源在几个磁盘阵列中存放,首先需要发送者确认相关操作人员需要的视频资源(这里需要在几个阵列中检索),然后由运维人员按照上述流程进行资源传输。起初,当我们拿到视频资源的时候,进行网络copy时,发现视频资源量很多,每个资源文件又很大,导致传输时间太长,工作流程在开始之初已经把瓶颈挤压在我们身上,而下游的agent端只能等待,由于时间紧急,员工开始抱怨和不满,为了应对这种突发事件,我们只能抱着磁盘阵列挨个电脑上进行拷贝数据,这样的场景可想而知:效率低下、运维很吃力,影响整个工作流的进度,完全没有按照我们相像的流程去工作。。。
思考
通过一段时间的低效工作方式后,发现问题的严重性和对整个流程的疏忽大意导致这个事故发生,瓶颈怎么会出现在我们这里?到底哪里出错了?内网传输虽然有些局限性,但是不可能因为传输引起的瓶颈啊?思来想去,必须要采取措施才行。
优化方案
所以必须要把工作流程优化:
- 既然网络传输不能达到理想状态,只能按照优先级处理(沟通);
- 资源必须从dataCenter中传输,这样能大大缓解运维的工作负载;
- 资源传输可以分批执行,因为剪辑工作不能批量操作(沟通);
- agent端处理完成后可以分批或者把紧急视频优先传输给control(这个操作员工可以通过飞鸽之类的工具操作,简单,易上手)(沟通)。
总结
通过优化方案实施后,发现效率提升了很高,差不多接近80%。也从优化方案中几点可以看出大部分工作只要提前做好沟通确认,工作效率也就自然而然的提升了。所以,在做一件事情前一定要沟通确认每个环节,把沟通做好了能节省很大的工作量。在做事情前,在设计方案时,应该按照策略进行模拟实践,俗话说的好实践是检验真理的唯一标准。