在日常办公和开发中,从 PDF 文件中提取文本是一项高频需求。手动复制粘贴不仅耗时,而且面对大量文档时效率极低。传统的自动化方案往往依赖 Adobe Reader 等外部组件,不仅部署麻烦,遇到加密或扫描件更是难以处理。
本文将介绍如何使用免费库 Free Spire.PDF for .NET ,无需安装任何 PDF 阅读器,轻松实现高精度、高可靠性的 PDF 文本提取。我们将从方案对比开始,逐步讲解环境搭建、核心代码实现以及高级应用技巧,并提供可直接运行的示例。
PDF 文本提取方案对比
对比维度传统方案痛点Spire.PDF 解决方案依赖环境需安装 Adobe Reader 等第三方软件完全独立的内核,无需任何外部依赖加密文件支持无法处理有密码保护的 PDF支持加载加密 PDF,只需提供密码即可开发复杂度需理解 COM 组件调用,代码繁琐 ★★★★☆纯 .NET 接口,简洁直观 ★★☆文档与社区官方文档零散,中文支持差提供完整的 API 文档及中文技术社区C# 实战教程:三步完成 PDF 文本提取
1. 环境准备
首先创建一个 .NET 控制台应用程序(支持 .NET Framework 4.6.1+ 或 .NET Core 3.1+)。然后通过 NuGet 安装 Spire.PDF 库。
在 Visual Studio 中打开“程序包管理器控制台”,输入以下命令:- Install-Package FreeSpire.PDF
复制代码注意:免费版对处理的 PDF 页数有限制(如最多10页),适用于个人或小型项目。
2. 提取单页文本的核心代码
下面演示如何加载一个 PDF 文件,提取其中某一页的所有文本,并保存到 TXT 文件中。- using System.IO;
- using Spire.Pdf;
- using Spire.Pdf.Texts;
- namespace ExtractTextFromPage
- {
- class Program
- {
- static void Main(string[] args)
- {
- // 1. 加载 PDF 文档
- PdfDocument doc = new PdfDocument();
- doc.LoadFromFile("示例.pdf");
- // 2. 获取指定页面(Pages 集合从 0 开始,此处获取第 2 页)
- PdfPageBase page = doc.Pages[1];
- // 3. 创建 PdfTextExtractor 对象,用于提取该页文本
- PdfTextExtractor textExtractor = new PdfTextExtractor(page);
- // 4. 设置提取选项:提取页面上所有文本
- PdfTextExtractOptions extractOptions = new PdfTextExtractOptions();
- extractOptions.IsExtractAllText = true; // 提取全部文本
- // 5. 执行提取
- string text = textExtractor.ExtractText(extractOptions);
- // 6. 将提取的文本写入文件
- File.WriteAllText("提取指定页面文本.txt", text);
- // 7. 释放资源
- doc.Close();
- }
- }
- }
复制代码 关键参数说明:
- PdfTextExtractor:文本提取器,绑定到指定页面。
- PdfTextExtractOptions:提取选项,可设置提取范围(全页或矩形区域)。
- ExtractText():执行提取,返回该页所有文本的字符串。
3. 高级应用技巧
处理加密 PDF 文件
若 PDF 受密码保护,只需在加载时传入密码(所有者密码或用户密码均可,取决于文件权限):- doc.LoadFromFile("加密.pdf", "password");
复制代码 提取所有页面文本
通过遍历文档的每一页,将提取的文本合并:- StringBuilder allText = new StringBuilder();
- foreach (PdfPageBase page in doc.Pages)
- {
- PdfTextExtractor extractor = new PdfTextExtractor(page);
- PdfTextExtractOptions options = new PdfTextExtractOptions();
- options.IsExtractAllText = true;
- string pageText = extractor.ExtractText(options);
- allText.AppendLine(pageText);
- }
- File.WriteAllText("全部页面文本.txt", allText.ToString());
复制代码 提取指定区域的文本
有时我们只需要页面中某个矩形区域内的文本,可以通过 ExtractArea 属性指定区域(单位:点,1 点 = 1/72 英寸):- PdfTextExtractOptions options = new PdfTextExtractOptions();
- options.ExtractArea = new System.Drawing.RectangleF(50, 100, 400, 300); // 左、上、宽、高
- string areaText = textExtractor.ExtractText(options);
复制代码 技术组合建议
在实际项目中,PDF 文本提取往往不是终点,还需要结合其他功能实现完整的数据处理流程:
- 文本+格式提取:使用 PdfTextFinder 可以按样式(字体、颜色、大小)定位特定文本,便于提取标题、关键词等。
- 表格数据提取:若 PDF 中包含表格,使用 PdfTableExtractor 可以直接提取结构化表格数据,返回 DataTable 或二维数组。
- 扫描件 OCR 集成:对于扫描版 PDF(图片格式),可搭配 Spire.OCR 库进行光学字符识别,提取其中的文字信息。
总结
通过 Free Spire.PDF for .NET,开发者可以轻松绕过传统方案的诸多限制,在 .NET 环境中实现稳定、高效的 PDF 文本提取。其简洁的 API 设计大大降低了编码难度,同时丰富的扩展功能(如加密处理、区域提取、表格识别)可以满足不同业务场景的需求。
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |