普元数据开发平台 普元数据开发平台
产品介绍
安装部署
快速入门
操作指南
FAQ
  • 实时组件

# 实时组件

本章节详细说明实时作业组件的功能及属性,具体有如下分类:

  • 数据源
  • 目标
  • 转换

DWS 实时作业底层基于 SeaTunnel,是一个非常易于使用、超高性能的分布式数据集成平台,支持海量数据的实时同步。

SeaTunnel专注于数据集成和数据同步,主要用于解决数据集成领域的常见问题:

各种数据源:有数百种常用的数据源版本不兼容。随着新技术的出现,越来越多的数据源出现了。用户很难找到一种能够完全快速支持这些数据源的工具。 复杂的同步场景:数据同步需要支持离线全同步、离线增量同步、CDC、实时同步、全数据库同步等多种同步场景。

资源需求高:现有的数据集成和数据同步工具往往需要大量的计算资源或JDBC连接资源来完成海量小表的实时同步。这增加了企业的负担。

缺乏质量和监测:数据集成和同步过程经常会出现数据丢失或重复。同步过程缺乏监控,无法直观地了解任务过程中数据的真实情况。

复杂的技术堆栈:企业使用的技术组件不同,用户需要为不同的组件开发相应的同步程序来完成数据集成。

管理和维护难度:受限于不同的底层技术组件(Flink/Spark),离线同步和实时同步往往需要单独开发和管理,这增加了管理和维护的难度。

功能特点:

  • 提供了丰富且可扩展的连接器:SeaTunnel 提供了一个不依赖于特定执行引擎的连接器API。基于此 API 开发的连接器(Source、Transform、Sink)可以在许多不同的引擎上运行,如目前支持的SeaTunnel Engine、Flink和Spark。

  • 连接器插件:插件设计允许用户轻松开发自己的连接器,并将其集成到SeaTunnel项目中。目前,SeaTunnel支持100多个连接器,而且数量还在激增。

  • 批量流集成:基于 SeaTunnel 连接器 API 开发的连接器,完美兼容离线同步、实时同步、全同步、增量同步等场景。它们大大降低了管理数据集成任务的难度。

  • 多引擎支持:默认情况下,SeaTunnel 使用SeaTunnel引擎进行数据同步。SeaTunnel 还支持使用 Flink 或 Spark 作为连接器的执行引擎,以适应企业现有的技术组件。SeaTunnel支持多种版本的Spark和Flink。

  • JDBC复用,数据库日志多表解析:SeaTunnel 支持多表或全数据库同步,解决了 JDBC 连接过多的问题;并支持多表或全数据库日志读取和解析,解决了CDC多表同步场景处理日志重复读取和解析问题的需要。

  • 高吞吐量和低延迟:SeaTunnel 支持并行读写,提供稳定可靠的高吞吐量和高延迟数据同步功能。

  • 完美的实时监控:SeaTunnel 支持数据同步过程中每一步的详细监控信息,让用户轻松了解同步任务读取和写入的数据数量、数据大小、QPS 等信息。