登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
1
2
/ 2 页
下一页
返回列表
首页
›
资源区
›
代码
›
通过apache tika从文档(pdf、doc、docx、txt)中 提取特 ...
通过apache tika从文档(pdf、doc、docx、txt)中 提取特征数据
[ 复制链接 ]
金娅鸣
2025-6-2 00:11:14
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
本文介绍如何通过apache tika从文档(pdf、doc、docx、txt)中 提取特征数据,比如文档中有身份证、姓名等信息。【全部是经本人实际测试过的功能】
1、需引入相关pom依赖
<dependency>
<groupId>org.apache.tika</groupId>
tika-core</artifactId>
<version>2.8.0</version>
</dependency>
<dependency>
<groupId>org.apache.tika</groupId>
tika-parsers-standard-package</artifactId>
<version>2.8.0</version>
</dependency>
<dependency>
<groupId>org.apache.xmlbeans</groupId>
xmlbeans</artifactId>
<version>5.1.1</version>
</dependency>
复制代码
2、编写相关代码
package org.example.wordcontent;
import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;
import java.io.File;
import java.io.IOException;
import java.io.InputStream;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
/**
* 通过apache tika从 pdf、doc、docx、txt中提取数据
* 核心依赖jar【tika-core 2.8.0、tika-parsers-standard-package 2.8.0(解析word时,需另外外依赖xmlbeans 5.1.1)】
* 假定文档中的内容具有下列属性:
* [授权人(签字):张三
* 身份证号码: 322025199902256056 ]
* 待提取的内容为张三 和 322025199902256056。张三和322025199902256056的值会变
*/
public class TikaExtrator {
public static void main(String[] args) {
try {
//// 替换为实际的PDF文件路径 测试例子: 如 测试.xlsx.
InputStream input = TikaExtrator.class.getClassLoader().getResourceAsStream("综合信息查询授权书测试.docx");
String text = extractTextFromFile(input);
System.out.println("text: " + text);
String name = extractName(text);
String idNumber = extractIdNumber(text);
System.out.println("授权人姓名: " + name);
System.out.println("身份证号码: " + idNumber);
} catch (IOException e) {
e.printStackTrace();
}
}
/**
*
* @param inputStream
* @return
* @throws IOException
*/
private static String extractTextFromFile(InputStream inputStream) throws IOException {
Tika tika = new Tika();
try {
return tika.parseToString(inputStream);
} catch (TikaException e) {
throw new RuntimeException(e);
}
}
private static String extractName(String text) {
Pattern pattern = Pattern.compile("授权人(签字)[::]([\\u4e00-\\u9fa5]+)");
Matcher matcher = pattern.matcher(text);
if (matcher.find()) {
return matcher.group(1);
}
return "";
}
private static String extractIdNumber(String text) {
Pattern pattern = Pattern.compile("身份证号码[::](\\d{18}|\\d{15})");
Matcher matcher = pattern.matcher(text);
if (matcher.find()) {
return matcher.group(1);
}
return "";
}
}
复制代码
3、执行效果
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
通过
apache
tika
文档
pdf
相关帖子
文档化与知识库方法——ADR、Runbook与故障手册的结构与维护节奏
使用 C# 删除 PDF 中的数字签名
飞书如何搜索文档?我用AI打造高效飞书搜索网站助手
从 Apache SeaTunnel 走向 ASF Member:一位开发者的长期主义样本
在 Python 中转换 XML 为 PDF 文档:基础转换与转换设置
代码工程文档生成:从代码到战略蓝图的 AI 化实践
笔记:WPF MVVM 模式下通过消息机制获取自定义对话框数据
【OpenClaw】通过 Nanobot 源码学习架构---(1)总体
通过实时竞价能力,重塑广告收益曲线
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
安全
文档化与知识库方法——ADR、Runbook与故障手册的结构与维护节奏
0
315
老僻贞
2026-03-23
业界
使用 C# 删除 PDF 中的数字签名
0
833
祖娅曦
2026-03-26
安全
飞书如何搜索文档?我用AI打造高效飞书搜索网站助手
0
227
俞秋荣
2026-03-26
业界
从 Apache SeaTunnel 走向 ASF Member:一位开发者的长期主义样本
0
649
玛凶
2026-03-27
安全
在 Python 中转换 XML 为 PDF 文档:基础转换与转换设置
0
185
愤血冒
2026-03-27
科技
代码工程文档生成:从代码到战略蓝图的 AI 化实践
0
171
廖彗云
2026-03-27
安全
笔记:WPF MVVM 模式下通过消息机制获取自定义对话框数据
0
438
锑砖
2026-03-28
业界
【OpenClaw】通过 Nanobot 源码学习架构---(1)总体
0
32
玛凶
2026-03-30
安全
通过实时竞价能力,重塑广告收益曲线
0
327
焦听云
2026-03-31
回复
(31)
郦湘云
2025-11-14 22:58:56
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
前排留名,哈哈哈
怀陶宁
2025-12-11 16:00:26
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
谢谢分享,辛苦了
水苯
2025-12-28 20:02:13
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
不错,里面软件多更新就更好了
崆蛾寺
2026-1-7 18:27:07
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
感谢分享,下载保存了,貌似很强大
卿搞笔
2026-1-12 01:18:45
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
感谢分享,学习下。
焦尔蕾
2026-1-13 21:38:45
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
这个有用。
事确
2026-1-17 14:07:31
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
懂技术并乐意极积无私分享的人越来越少。珍惜
呶募妙
2026-1-18 13:07:58
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
这个有用。
赏听然
2026-1-20 17:06:25
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
热心回复!
缑娅瑛
2026-1-20 22:30:16
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
分享、互助 让互联网精神温暖你我
计海龄
2026-1-21 18:18:57
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
喜欢鼓捣这些软件,现在用得少,谢谢分享!
嗣伐
2026-1-23 13:31:06
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
感谢分享
轨项尺
2026-2-2 03:13:01
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
喜欢鼓捣这些软件,现在用得少,谢谢分享!
艾曼语
2026-2-3 05:48:45
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
分享、互助 让互联网精神温暖你我
湛恶
2026-2-3 07:23:06
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
很好很强大 我过来先占个楼 待编辑
盛天欣
2026-2-4 04:10:17
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
懂技术并乐意极积无私分享的人越来越少。珍惜
欧阳雪枫
2026-2-7 04:17:46
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
过来提前占个楼
焦和玉
2026-2-7 07:10:01
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
分享、互助 让互联网精神温暖你我
郦湘云
2026-2-9 08:46:14
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
感谢分享,学习下。
下一页 »
1
2
/ 2 页
下一页
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
浏览过的版块
安全
程序
业界
科技
签约作者
程序园优秀签约作者
发帖
金娅鸣
2026-2-9 08:46:14
关注
0
粉丝关注
24
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
3934307807
991125
anyue1937
9994892
kk14977
6845359
4
xiangqian
638210
5
神泱
9539
6
宋子
9880
7
韶又彤
9911
8
注思
9034
9
荪俗
9023
10
诀锺
9036
查看更多
今日好文热榜
645
【ESP32】ESP32 使用 MQTT 连接华为云 IoT
770
Axios遭供应链投毒攻击(附排查与紧急补救
931
AI 可以取代运维了吗?
83
测试人必备的4个AI Skills(附下载地址和详
74
记一次Webshell流量分析2 | 添柴不加火
453
记一次Webshell流量分析2 | 添柴不加火
139
记一次Webshell流量分析2 | 添柴不加火
727
记一次Webshell流量分析2 | 添柴不加火
68
记一次Webshell流量分析2 | 添柴不加火
412
AI元人文:在荆棘中开路——对四个实践性追
930
记一次Webshell流量分析2 | 添柴不加火
3
Python模块与包管理完全指南:从入门到精通
422
记一次Webshell流量分析2 | 添柴不加火
2
Python模块与包管理完全指南:从入门到精通
271
AI元人文:在荆棘中开路——对四个实践性追
577
记一次Webshell流量分析2 | 添柴不加火
86
记一次Webshell流量分析2 | 添柴不加火
160
记一次Webshell流量分析2 | 添柴不加火
876
记一次Webshell流量分析2 | 添柴不加火
148
记一次Webshell流量分析2 | 添柴不加火