找回密码
 立即注册
首页 业界区 业界 Hudi 文件格式分析

Hudi 文件格式分析

万俟谷雪 4 天前
Hudi 文件格式分析

请关注微信公众号:阿呆-bot
主题说明

Hudi 支持多种文件格式来存储数据,不同的格式有不同的特点和适用场景。理解文件格式的选择和使用,有助于优化存储和查询性能。
Hudi 主要使用两种文件格式:

  • Parquet:用于基础文件(BaseFile),列式存储,查询性能好
  • Avro:用于增量日志(LogFile),行式存储,写入性能好
另外还支持 ORC 作为基础文件的替代选择,以及 HFile 用于元数据表。
细化内容

Parquet 格式 - 基础文件

Parquet 是列式存储格式,特别适合分析型查询。Hudi 使用 Parquet 作为基础文件的默认格式。
Parquet 的特点:

  • 列式存储:相同列的数据存储在一起,压缩率高
  • 谓词下推:可以直接在文件层面过滤数据,减少IO
  • 投影下推:只读取需要的列,减少数据传输
  • 压缩效率高:列式存储天然适合压缩
在 Hudi 中的使用:

  • 基础文件(BaseFile)默认使用 Parquet
  • 文件名格式:{fileId}_{commitTime}.parquet
  • 支持 Schema 演化,可以添加新列
Avro 格式 - 增量日志

Avro 是行式存储格式,特别适合增量写入。Hudi 使用 Avro 作为增量日志的格式。
Avro 的特点:

  • 行式存储:一条记录的所有字段存储在一起
  • Schema 驱动:Schema 和数据分离,支持 Schema 演化
  • 紧凑的二进制格式:比 JSON 等文本格式更省空间
  • 写入性能好:追加写入效率高
在 Hudi 中的使用:

  • 增量日志(LogFile)使用 Avro
  • 日志文件包含多个数据块(Data Block)
  • 每个数据块可以包含多条记录
ORC 格式 - 替代选择

ORC(Optimized Row Columnar)是另一种列式存储格式,可以作为 Parquet 的替代。
ORC 的特点:

  • 列式存储:类似 Parquet
  • 支持 ACID 事务:原生支持更新和删除
  • 压缩率高:使用多种压缩算法
  • Hive 集成好:Hive 原生支持 ORC
在 Hudi 中的使用:

  • 可以作为基础文件的格式选择
  • 通过配置 hoodie.table.base.file.format=ORC 启用
HFile 格式 - 元数据表

HFile 是 HBase 的文件格式,Hudi 用它来存储元数据表。
HFile 的特点:

  • 键值存储:适合存储键值对数据
  • 排序存储:键按顺序存储,查找效率高
  • 支持 Bloom Filter:快速判断键是否存在
在 Hudi 中的使用:

  • 元数据表使用 HFile 格式
  • 存储文件列表、列统计等元数据信息
关键技术

文件格式的选择策略

Hudi 根据表类型选择文件格式:
Copy-on-Write 表:

  • 基础文件:Parquet(默认)或 ORC
  • 没有日志文件,每次更新都重写基础文件
Merge-on-Read 表:

  • 基础文件:Parquet(默认)或 ORC
  • 日志文件:Avro 格式
  • 查询时需要合并基础文件和日志文件
文件格式的读写器

Hudi 通过 HoodieIOFactory 来获取不同格式的读写器:

  • ParquetFileFormatUtils:Parquet 格式的读写工具
  • AvroFileFormatUtils:Avro 格式的读写工具
  • ORCFileFormatUtils:ORC 格式的读写工具
这些工具类封装了格式特定的读写逻辑。
Schema 演化支持

Hudi 支持 Schema 演化,可以在不重写数据的情况下添加新列:

  • Parquet:支持添加新列,向后兼容
  • Avro:支持 Schema 演化,通过 Schema Registry 管理
  • ORC:支持添加新列
Schema 演化时,旧数据的新列会使用默认值。
压缩和编码

不同格式使用不同的压缩和编码策略:

  • Parquet:支持 Snappy、Gzip、LZO 等压缩算法
  • Avro:支持 Deflate、Snappy 等压缩算法
  • ORC:支持 Zlib、Snappy、LZO 等压缩算法
压缩算法的选择影响压缩率和压缩速度。
关键对象说明

类关系图

1.png

关键类说明


  • HoodieFileFormat:文件格式枚举,定义了支持的格式类型。
  • HoodieIOFactory:IO 工厂类,根据存储和格式获取对应的工具类。
  • FileFormatUtils:文件格式工具抽象类,定义了序列化和反序列化的接口。
  • ParquetFileFormatUtils:Parquet 格式工具类,处理 Parquet 文件的读写。
  • AvroFileFormatUtils:Avro 格式工具类,处理 Avro 文件的读写。
  • HoodieLogFormat:日志文件格式接口,定义了日志文件的读写接口。
  • HoodieAvroDataBlock:Avro 数据块,日志文件中的数据块实现。
关键操作时序图

下面是一个文件读取操作的时序图,展示了如何读取 Parquet 基础文件和 Avro 日志文件:
2.png

代码示例

读取 Parquet 文件
  1. // 获取 IO 工厂
  2. HoodieIOFactory ioFactory = HoodieIOFactory.getIOFactory(storage);
  3. // 获取 Parquet 格式工具
  4. FileFormatUtils parquetUtils = ioFactory.getFileFormatUtils(HoodieFileFormat.PARQUET);
  5. // 读取基础文件
  6. HoodieBaseFile baseFile = fileSlice.getBaseFile().get();
  7. List<HoodieRecord> records = parquetUtils.deserializeRecordsFromLogBlock(
  8.     storage,
  9.     baseFile.getPath(),
  10.     schema
  11. );
复制代码
写入 Avro 日志文件
  1. // 获取 Avro 格式工具
  2. FileFormatUtils avroUtils = ioFactory.getFileFormatUtils(HoodieFileFormat.HOODIE_LOG);
  3. // 序列化记录到日志块
  4. ByteArrayOutputStream outputStream = avroUtils.serializeRecordsToLogBlock(
  5.     storage,
  6.     records,
  7.     schema,
  8.     keyFieldName,
  9.     paramsMap
  10. );
  11. // 写入日志文件
  12. HoodieLogFileWriter writer = HoodieLogFormat.newWriterBuilder()
  13.     .withStorage(storage)
  14.     .withLogFile(logFile)
  15.     .build();
  16. writer.appendBlock(outputStream.toByteArray());
复制代码
配置文件格式
  1. // 配置基础文件格式为 ORC
  2. HoodieWriteConfig config = HoodieWriteConfig.newBuilder()
  3.     .withPath(basePath)
  4.     .withBaseFileFormat(HoodieFileFormat.ORC)
  5.     .build();
复制代码
总结

Hudi 支持多种文件格式,每种格式都有其适用场景。核心要点:

  • Parquet 是基础文件的默认格式,列式存储,查询性能好
  • Avro 是日志文件的格式,行式存储,写入性能好
  • ORC 可以作为 Parquet 的替代,在某些场景下性能更好
  • HFile 用于元数据表,键值存储,查找效率高
  • 文件格式选择 影响存储效率和查询性能
  • Schema 演化 支持在不重写数据的情况下添加新列
理解文件格式有助于优化 Hudi 表的存储和查询性能,选择合适的格式可以显著提升系统效率。

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

相关推荐

您需要登录后才可以回帖 登录 | 立即注册