登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
博客
发1篇日志+1圆
记录
发1条记录+2圆币
发帖说明
VIP申请
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
VIP申请
VIP网盘
网盘
联系我们
道具
勋章
任务
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
业界
›
纯 C#实现+AOT 打造的智能PDF目录提取工具 PdfTocExtrac ...
纯 C#实现+AOT 打造的智能PDF目录提取工具 PdfTocExtractor
[ 复制链接 ]
橘芜
2025-8-20 09:35:06
前言
最近在做标书的时候发现,有些文档文字量很大,想让大模型完全解读不太现实,先不说 context 长度够不够,首先 token 消耗量就爆炸了
于是想到使用取巧的方式,提取 PDF 的目录来进行分析,于是说干就干,用 C# 写了一个工具来实现目录提取,结果效果还不错
后续我又继续完善这个工具,增加了语义识别等功能
继续沿用 C# + AOT + GitHub Actions + dotnet tool + nuget 这套流程的开发
项目地址: https://github.com/star-plan/pdf-toc-extractor
类似项目:
SharpIco
ImageGlider
为什么是目录提取?
PDF 转 word、markdown 等格式的工具太多了
咱不卷这个赛道
<blockquote>
(说是这么说,我最近也做了一个
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
实现
AOT
打造
智能
PDF
相关帖子
使用VHF框架实现一个虚拟HID键盘
【URP】[平面阴影]原理与实现
从零实现富文本编辑器#7-基于组合事件的半受控输入模式
实现一个 AI 编辑器 - 行内代码生成篇
从EXTI实现看Embassy: 异步Rust嵌入式框架
详解智能体应用——网课生成Agent
在富文本编辑器中实现 Markdown 流式增量解析算法
使用Java实现一个DNS服务
将 PDF 转换为 TIFF 图片:简单有效的 Java 教程
GitPod 使用 SpiceDB 实现权限管理
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
业界
使用VHF框架实现一个虚拟HID键盘
0
973
东新
2025-09-01
业界
【URP】[平面阴影]原理与实现
0
857
语樊偿
2025-09-02
业界
从零实现富文本编辑器#7-基于组合事件的半受控输入模式
0
256
后雪闵
2025-09-02
业界
实现一个 AI 编辑器 - 行内代码生成篇
0
754
橘芜
2025-09-02
业界
从EXTI实现看Embassy: 异步Rust嵌入式框架
0
358
梳踟希
2025-09-02
安全
详解智能体应用——网课生成Agent
0
68
乱蚣
2025-09-03
业界
在富文本编辑器中实现 Markdown 流式增量解析算法
0
250
柄利
2025-09-03
安全
使用Java实现一个DNS服务
0
134
秦晓曼
2025-09-03
安全
将 PDF 转换为 TIFF 图片:简单有效的 Java 教程
0
606
豺独
2025-09-04
业界
GitPod 使用 SpiceDB 实现权限管理
0
974
事值
2025-09-04
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
浏览过的版块
软件
代码
安全
签约作者
程序园优秀签约作者
发帖
橘芜
2025-8-20 09:35:06
关注
0
粉丝关注
15
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
敖可
9984
黎瑞芝
9990
杭环
9988
4
凶契帽
9988
5
氛疵
9988
6
猷咎
9986
7
里豳朝
9986
8
肿圬后
9986
9
蝓俟佐
9984
10
虽裘侪
9984
查看更多