OpenMLDB v0.8.0发布:线上到线下数据自动同步工具

释放双眼,带上耳机,听听看~!
OpenMLDB v0.8.0正式推出自动化线上到线下数据同步工具,实现了从实时数据库到离线数仓的自动同步,改进了手动维护的运维复杂度。了解更多关于实时特征计算平台的最新功能。

OpenMLDB 正式发布线上到线下数据自动同步工具

OpenMLDB 作为一个线上线下一致的实时特征计算平台,通过合理的线上线下数据存储,确保线上到线下数据的一致性。由于线上和线下数据有不同性能和数据量的需求,通常情况下,OpenMLDB 的线上和线下的数据在物理上是分开存储。

在以前版本中,需要用户自行维护线上线下数据的同步和一致性,带来了一定的维护复杂度。近期,OpenMLDB v0.8.0 正式推出自动化线上到线下数据同步工具,实现了从实时数据库到离线数仓的自动同步,改进了手动维护的运维复杂度。下表总结了两种不同使用方式的优劣势。

线上线下数据同步方式 使用方式 优势 不足
手动维护和同步 默认使用方式 用户对于数据存储具备完全控制权,可以按照自己需求进行存储行为设计 一定的开发和维护复杂度,用户需要自己维护数据的写入、保证一致性等问题
线上到线下数据自动同步 单独配置同步工具 典型使用场景下更为易用,用户无需自己写代码实现线上到线下数据同步 目前版本的实时数据库仅支持磁盘表

线上到线下数据存储自动化同步工具的架构如下图所示,用户只需要将新的数据写入 OpenMLDB 线上实时数据库,并设置好线上到线下的同步机制,OpenMLDB 即可自动化地将数据实时或者定时地同步至一个或者多个离线数仓。OpenMLDB 的实时数据库根据数据过期机制仅保存用于线上特征计算的数据,而离线数仓将保留所有全量数据。

OpenMLDB v0.8.0发布:线上到线下数据自动同步工具

线上到线下自动同步实战演示

使用线上到线下自动同步功能,需要在每台 TabletServer 所在机器上部署至少一台 DataCollector,用于收集在线数据。接收并写入离线存储的工具 SyncTool 可放于任何机器,目前仅支持单体运行。详细部署方式见最新产品相关文档(openmldb.ai/docs/zh/mai… )。注意,目前在线存储仅支持磁盘表,离线支持写入到 HDFS。
接下来将以Docker镜像为例,展示在离线同步方式。主要分为以下四步:

  1. HDFS 环境配置,作为离线存储地址
  2. OpenMLDB 部署,包含同步组件
  3. 创建 OpenMLDB 线上到线下的同步任务
  4. 在线数据导入,并检查离线存储地址

步骤一:HDFS 环境配置

HADOOP安装参考 openmldb.ai/

OpenMLDB GitHub 主页:
github.com/4paradigm/O…

OpenMLDB 文档:
openmldb.ai/docs/zh/

OpenMLDB 微信交流群

OpenMLDB v0.8.0发布:线上到线下数据自动同步工具

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

企业数字化转型与IT建设发展

2023-11-22 15:20:14

AI教程

剪枝微调训练:稀疏化模型,提高性能

2023-11-22 15:25:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索