如何有效的进行数据版本管理
作者:Graviti
发布于 6/11/2021

版本迭代信息只能通过建立不同的文件夹进行记录?

每创建一个新的数据版本都要将上一个版本的数据全量复制

数据迭代过程无法清晰查看

历史版本数据和训练模型无法匹配

标注数据和原数据只能以文档形式分开管理?

小编发现了一个好东西想要分享给大家,使用Tensorbay的数据版本管理功能,上述所出现的版本问题将都会迎刃而解,还等什么,赶快打开官网体验吧。https://www.graviti.cn/version-control

支持对原始数据、标注数据与Meta数据进行版本管理,无需手动记录数据集的扩增与变化,像git一样来管理数据版本,轻松追溯数据的迭代过程,让数据迭代与AI产品迭代相互对应,帮助更便捷地使用数据来优化产品。

1.清晰的版本信息管理

以往版本管理的只能通过不同文件夹或整合excel文档,完成版本信息记录,每创建一个版本需要将上一个版本全量复制,耗时耗力,数据大量冗余。而现在,几秒内Commit数据变更,自动记录您的数据版本。自由备注版本信息与版本标签,方便您通过版本信息快速了解该版本内容。版本只记录数据的索引变更,从此不再有数据重复造成的存储浪费。

2.便捷的版本切换与数据查看

原始数据、标注数据与Meta数据分别存储管理,查找对比不同版本的数据十分复杂,但现在,原始数据、 标注数据与Meta数据进行统一的版本管理,通过不同的Commit可以切换并访问数据集的版本数据,在线查看每个版本的完整数据信息。轻松切换版本,快速查看版本数据细节,不同版本比较轻而易举。

3.可视化数据版本迭代

在以往的工作中,数据迭代记录方式有限,无法清晰看到数据迭代过程,在历史版本上继续迭代的管理成本大,很难利用数据版本帮助模型持续优化。graviti以可视化的方式来查看数据版本,数据的迭代过程清晰可见。以列表与树状分支图形式查看版本,清晰看到版本迭代过程。在历史版本上迭代数据,与模型迭代一一对应,快速开始新的数据迭代。

分享到:
Start Building AI Now