《原创》谈一谈Ai部门的存储服务器如何管理
对于存储服务器,如果每次遇到存储空间不足就通知清理一次,那这样的事情会一直发生,甚至即使是扩充容量也还会出现。
真正的解决方法需要用制度规范和技术工具来维持服务器的良性运转,存储服务器作为重要的数据资产,其价值也极高,并且作为所有功能的基础弹药更是直接影响顶层。
目前存储服务器主要存在的问题有:
1) 大量冗余和个人数据占用存储空间。
2) 数据资产介绍缺失或者匮乏。
3) 数据存放路径混乱
问题出现的主要原因如下:
1) 存储服务器无人管理,无人负责。(一个流畅的鱼缸变成了一个大染缸)
2) 解压数据没有做到精简瘦身和文档说明,没人对数据进行负责。
3) 个人对部分大数据集进行提取复制小数据集,造成重复存储。
4) 账户密码公开导致个人数据随意放置,占用大量存储空间。
主要治理建议和步骤包括如下:
1) 成立三层管理和监督小组
2) 构建整体文件结构
3) 数据清理
4) 更新数据信息
5) 文件权限分配
6) 汇总对外公布
具体实施细则如下
(一) 成立三层管理和监督小组
1) 总负责人
人选:项目经理
职责:管理存储空间防止滥用,建立数据集的总记录对外公布,分配文件权限,协调各个数据集之间的测试请求,监督各个数据集是否按照要求精简存储和详细记录信息,思考如何更快的读取数据。
2) 监督员
人选:领导级别
职责:监督和强制性任务执行,对违规存储和操作数据的人员进行惩戒。
3) 执行成员
人选:每组提供一个人
职责:更新和优化数据存储,添加新的数据时需要将信息提供给总负责人
(二) 构建整体文件结构
1) 数据按照功能方向划分文件夹,ocr、人脸、语音、敏感等数据分门别类,公共数据放到公共文件夹。
2) 统一文件夹的命名方式(讨论,一律不允许出现以个人命名的文件夹)
(三) 数据清理
1) 个人数据一律清除,详见数据统计文档
2) 所有数据按照现有文件夹发出认领通告,由执行成员发到各组认领相关数据
3) 在认领完数据之后,对文件夹数据按照如下步骤自我审查:1、删除压缩包,2、删除复制的文件夹,3删除额外产生的文件,如测试过程中产生的额外log、txt、python等文件
4) 数据转移到相关文件
(四) 更新数据信息
每个独立的数据文件夹应该添加readme文档,文档中包括:
l 数据负责人
l 数据来源地
l 数据来源格式(来源)
l 数据量
l 数据时间
l 数据存储空间
l 其他可能的信息。
(五) 文件权限分配
1) 每组有独立的账号,该账号只对本组文件夹拥有读取权限
2) 回收root账号,不再对外公开,防止意外事件发生和降低多人误操作
(六) 汇总对外公布
汇总所有数据公开,包括数据负责人,公开数据可以公开权限账户
本文来自博客园,作者:海_纳百川,转载请注明原文链接:https://www.cnblogs.com/chentiao/p/16336206.html,如有侵权联系删除