找回密码
 立即注册
首页 业界区 安全 当数据库世界重新讨论文件格式:TsFile 与工业高质量数 ...

当数据库世界重新讨论文件格式:TsFile 与工业高质量数据集的背后逻辑

琉艺戕 昨天 12:55
在《2025 数据库世界年度回顾》中,TsFile 等文件格式正在重新引发数据库系统的关注。
最近,CMU(Carnegie Mellon University,卡耐基梅隆大学)数据库系统领域的重要代表人物 Andy Pavlo,发布了他一年一度的《2025 数据库世界年度回顾》。
作为长期参与并观察数据库系统演进的学者,他的年度回顾常被业界视为判断技术走向的重要参考。
在这篇年度回顾中,一个耐人寻味的现象被明确点出:文件格式这一长期相对沉寂的技术领域,正在重新进入数据库系统的关键技术讨论范围,并逐渐引发更多关注。多个新的开源文件格式在短时间内集中出现,试图从不同路径回应数据长期演进、互操作性与新硬件环境带来的挑战。
在文章中,TsFile 与多个来自学界和工业界的新一代开源文件格式一起,被列入近两年出现的重要尝试之中。
这并不是一次产品评测,而是一种趋势层面的判断——文件格式,正在从“实现细节”重新回到“系统基础设施”的位置。
1.jpeg

报告原文:https://www.cs.cmu.edu/~pavlo/blog/2026/01/2025-databases-retrospective.html
为什么会出现这样的变化?

过去十多年里,数据库系统的关注点更多集中在查询引擎、执行框架与分布式架构上,而文件格式一度被视为相对成熟、变化缓慢的领域。但随着工业场景与 AI 应用的深入,这一前提正在被打破。
在越来越多真实生产环境中,新的问题变得突出:

  • 数据从终端设备产生,并汇聚到云端进行分析;
  • 数据需要在不同系统、语言和工具之间反复使用;
  • 数据不仅服务于查询,也直接服务 AI 模型训练与推理。
在这样的背景下,“数据是否具备长期可用性与可复用性”,开始变得更加重要。这也是我们近期反复讨论“工业高质量数据集”的原因。
2.png

当数据生命周期被拉长到十年甚至更久时,文件格式不再只是存储效率问题,而成为承载时间语义、元数据、演进能力的基础载体。
TsFile 正是在这样的需求背景下逐步演进而来。它并非为某一个查询引擎而生,而是试图回答一个更基础的问题:工业时序数据,如何被稳定、清晰、长期地保存,并在未来不断被重新理解和利用。
从这个角度看,文件格式在数据库世界中重新引发广泛讨论,并不令人意外。它反映的不是某一个项目的变化,而是整个行业对“数据长期价值”的重新认识。
点击访问 TsFile 官网,了解更多技术详情!

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

相关推荐

您需要登录后才可以回帖 登录 | 立即注册