保姆级 SeaTunnel 入门！再学不会小编当场表演倒立敲代码

钿稳铆 · 5 天前

欢迎来到 Apache SeaTunnel 的世界！这份文档旨在帮助新手快速了解 SeaTunnel 的核心功能、基本架构，并完成第一个数据同步任务。
1. 什么是 Apache SeaTunnel？

Apache SeaTunnel 是一个非常易于使用、高性能、支持实时流式和离线批处理的海量数据集成平台。它的目标是解决常见的数据集成问题，如数据源多样性、同步场景复杂性以及资源消耗高的问题。
核心特性

丰富的数据源支持：支持 100+ 种 Connector，涵盖主流数据库、云存储、SaaS 服务等。
批流一体：同一套 Connector 代码同时支持批处理（离线）和流处理（实时）。
高性能：支持多引擎（Zeta, Flink, Spark），提供高吞吐、低延迟的数据同步能力。
简单易用：通过简单的配置文件（Config）即可定义复杂的数据同步任务。

2. 架构与环境

2.1 架构图

SeaTunnel 采用了解耦的设计架构，Source、Transform、Sink 插件与具体的执行引擎（Engine）是分离的。

2.2 操作系统支持

SeaTunnel 基于 Java 开发，理论上支持所有安装了 JDK 的操作系统。
操作系统适用场景说明Linux (CentOS, Ubuntu, etc.)生产环境 (推荐)稳定性高，适合长期运行服务。macOS开发/测试适合开发者本地调试和编写 Config。2.3 环境准备

在开始安装 SeaTunnel 之前，请确保你的环境满足以下要求：

JDK 版本：必须安装 Java 8 或 Java 11。
- 可以通过命令 java -version 检查。
- 确保设置了 JAVA_HOME 环境变量。

3. 核心组件深度解析

在使用 SeaTunnel 之前，深入理解其核心组件的内部机制有助于你更好地调优和排查问题。
3.1 Source (数据源)

Source 负责从外部系统读取数据，并将其转换为 SeaTunnel 内部的行格式（SeaTunnelRow）。

Enumerator (枚举器)：运行在 Master 节点（Coordinator）。负责发现数据分片（Splits）。例如，在 JDBC Source 中，Enumerator 会根据 partition_column 的最大值和最小值计算出多个查询范围（Splits）。
Reader (读取器)：运行在 Worker 节点。负责接收 Enumerator 分配的 Splits，并真正执行读取操作。多个 Reader 并行工作，极大提高了读取效率。
Checkpoint 支持：对于流式作业，Source 还需要支持状态保存（如 Kafka 的 Offset），以便在故障恢复时实现断点续传。

3.2 Transform (数据转换)

Transform 负责在数据从 Source 流向 Sink 的过程中对数据进行处理。

无状态转换：大多数 Transform（如 Sql, Filter, Replace）是无状态的，即处理当前行不需要依赖其他行的数据。
Schema 变更：Transform 可以改变数据的 Schema（增加、删除、修改字段），下游 Sink 会感知到这种变化。

3.3 Sink (数据目标)

Sink 负责将 SeaTunnel 处理后的数据写入到外部系统。

Writer (写入器)：运行在 Worker 节点。负责将数据写入目标系统。通常支持批量写入以提高吞吐量。
Committer (提交器)：运行在 Master 节点（可选）。对于支持事务的 Sink（如文件系统、Iceberg），需要一个全局的 Committer 来在 Checkpoint 完成时统一提交事务（二阶段提交），从而实现 Exactly-Once（精确一次）语义。

3.4 执行流程

解析配置：SeaTunnel 解析配置文件，构建逻辑执行计划。
资源分配：Master 节点根据并行度申请资源。
任务分发：Enumerator 生成分片，分发给 Reader。
数据流转：Reader -> Transform -> Writer。
状态提交：周期性触发 Checkpoint，保存状态并提交事务。

4. 支持的 Connector 及其优缺点分析

SeaTunnel 支持超过 100 种 Connector，以下是几类最常用的 Connector 及其特性分析：
4.1 关系型数据库 (JDBC)

支持列表: MySQL, PostgreSQL, Oracle, SQLServer, DB2, Teradata, Dameng(达梦), OceanBase, TiDB 等。

优点：
- 通用性强：只要有 JDBC 驱动即可连接几乎所有 SQL 数据库。
- 功能完善：支持列投影（只读部分列）、并行读取（基于 partition_column 切分）、Exactly-Once（取决于实现）。
- 自动建表：部分 Connector 支持在目标端自动创建表结构。
缺点：
- 性能瓶颈：受限于 JDBC 协议和单机驱动性能，超大规模数据读取可能需要精细调优（如 fetch_size）。
- 源库压力：如果并行度设置过高，可能打满源库连接池或 CPU。

4.2 消息队列

支持列表: Kafka, Pulsar, RocketMQ, Amazon DynamoDB Streams 等。

优点：
- 高吞吐：天生适合大规模流数据处理，支持削峰填谷。
- 格式丰富：支持 JSON, Avro, Protobuf, Canal-JSON, Debezium-JSON 等多种序列化格式。
- Exactly-Once：支持端到端的精确一次语义（依赖 Checkpoint 机制）。
缺点：
- 配置复杂：涉及 Offset 管理、序列化 Schema 配置、Consumer Group 管理等。
- 数据可见性：相比数据库，数据在 Topic 中不够直观，调试稍显麻烦。

4.3 变更数据捕获 (CDC)

支持列表: MySQL-CDC, PostgreSQL-CDC, Oracle-CDC, MongoDB-CDC, SQLServer-CDC, TiDB-CDC 等。

优点：
- 实时性：毫秒级捕获数据库增删改操作。
- 无锁读取：SeaTunnel 的 CDC 实现了无锁并行快照算法，极大降低了对源库的影响。
- 断点续传：支持从 Binlog/WAL 指定位置恢复。
- Schema Evolution：支持表结构变更同步（部分支持）。
缺点：
- 权限要求：通常需要较高的数据库权限（如 REPLICATION SLAVE）。
- 依赖日志：源库必须开启 Binlog（或 WAL），且保留时间需足够长。

4.4 文件系统 & 云存储

支持列表: LocalFile, HDFS, S3, OSS, GCS, FTP, SFTP 等。

优点：
- 海量存储：适合数据湖场景，成本低廉。
- 格式支持：原生支持 Parquet, ORC, Avro, JSON, CSV, Excel, Text 等。
- 压缩支持：支持 Snappy, Gzip, Lzo 等多种压缩算法。
缺点：
- 小文件问题：流式写入时，如果 Checkpoint 间隔太短，容易产生大量小文件（SeaTunnel 有文件合并功能但会增加复杂度）。

4.5 NoSQL & 其他

支持列表: Elasticsearch, Redis, MongoDB, Cassandra, HBase, InfluxDB, ClickHouse, Doris, StarRocks 等。

特点：针对各数据库特性进行了优化，例如 ClickHouse/StarRocks 支持 Stream Load 高速导入，Elasticsearch 支持批量写入。

5. Transform 实战演练 (附带详细注释)

Transform 插件用于在 Source 和 Sink 之间处理数据。以下是几个常用 Transform 的配置示例。
5.1 Sql Transform (最推荐)

使用 SQL 语法对数据进行处理，支持重命名、计算、常量添加、过滤等。

transform {
Sql {
# 输入表名，必须与 Source 的 result_table_name 一致
plugin_input = "fake"
# 输出表名，供后续 Transform 或 Sink 使用
plugin_output = "fake_sql"
# SQL 查询语句
# 1. name as full_name: 字段重命名
# 2. age + 1: 数值计算
# 3. 'US' as country: 增加常量列
# 4. where age > 10: 数据过滤
query = "select name as full_name, age + 1 as next_year_age, 'US' as country from fake where age > 10"
}
}

复制代码

5.2 Filter Transform

用于删除或保留指定字段（注意：不是过滤行，是过滤列/字段）。

transform {
Filter {
plugin_input = "fake"
plugin_output = "fake_filter"
# 仅保留 name 和 age 字段，其他字段会被丢弃
include_fields = ["name", "age"]
# 或者使用 exclude_fields 删除指定字段
# exclude_fields = ["card"]
}
}

复制代码

5.3 Replace Transform

用于字符串替换，支持正则表达式。

transform {
Replace {
plugin_input = "fake"
plugin_output = "fake_replace"
# 需要替换的字段名
replace_field = "name"
# 匹配模式（旧字符串）
pattern = " "
# 替换后的字符串（新字符串）
replacement = "_"
# 是否使用正则表达式，这里设为 true，表示 pattern 是一个正则
is_regex = true
# 是否只替换第一个匹配项
replace_first = true
}
}

复制代码

5.4 Split Transform

将一个字符串字段拆分为多个字段。

transform {
Split {
plugin_input = "fake"
plugin_output = "fake_split"
# 分隔符，这里使用空格
separator = " "
# 需要拆分的源字段
split_field = "name"
# 拆分后生成的新字段名列表
output_fields = ["first_name", "last_name"]
}
}

复制代码

6. 快速安装

对于新手，推荐直接下载编译好的二进制发行包进行体验。
步骤 1: 下载

前往 SeaTunnel 下载页面下载最新版本的二进制包（例如 apache-seatunnel-2.3.x-bin.tar.gz）。
步骤 2: 解压

tar -xzvf apache-seatunnel-2.3.x-bin.tar.gz
cd apache-seatunnel-2.3.x

复制代码

步骤 3: 安装 Connector 插件

SeaTunnel 的 Connector 是插件化的。首次使用需要下载插件：

sh bin/install-plugin.sh

复制代码

注意：该命令会根据 config/plugin_config 文件中的配置，从 Maven 中央仓库下载常用插件（如 connector-fake, connector-console 等）。如果下载速度慢，请耐心等待或配置 Maven 镜像。

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

岑韬哎 · 4 天前

很好很强大我过来先占个楼待编辑

县挫伪 · 3 天前

鼓励转贴优秀软件安全工具和文档！

扒钒 · 3 天前

新版吗？好像是停更了吧。

致掣 · 8 小时前

喜欢鼓捣这些软件，现在用得少，谢谢分享！

账号		自动登录	找回密码
密码			立即注册

保姆级 SeaTunnel 入门！再学不会小编当场表演倒立敲代码

相关帖子

回复

浏览过的版块

签约作者

保姆级 SeaTunnel 入门！再学不会小编当场表演倒立敲代码

相关帖子

相关推荐

回复

浏览过的版块

签约作者