登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
业界
›
破局AI问答专有名词检索迷局:分词期神器强势登场! ...
破局AI问答专有名词检索迷局:分词期神器强势登场!
[ 复制链接 ]
映各
2025-9-24 17:49:08
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
有客户深度使用全文检索模式检索分段,反馈一些专有名词无法被检索到(例如把“小米手机”分成了“小米”和“手机”两个词,对检索结果造成较大干扰),而 MaxKB 的分词器采用流行的 jieba 库,确认了一个临时解决方案。
1、定义自定义字典
cat /opt/my_dic.txt
小米手机 1000 n
苹果手机 1000 n
复制代码
字典组成:{词语}空格{词频}空格{词性}
示例:
小米手机 1000 n
小米手机:自定义词语
1000 :词频,越大优先级越高
n :词性。名词 (n)、专有名词 (nz)、动词 (v)、形容词 (a)、副词 (d)
复制代码
2、将自定义字典文件拷贝到容器中
docker cp /opt/my_dic.txt maxkb:/opt/maxkb/app/apps/common/util/
复制代码
3、split_model.py 引入自定义字典
jieba.load_userdict('/opt/maxkb/app/apps/common/util/my_dic.txt')
复制代码
4、测试验证
分段情况:
检索结果
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
破局
AI
问答
专有名词
检索
相关帖子
Java 25 (LTS) 重磅发布:AI、性能、安全全面革新,新手入门门槛再创新低!
一个完全由大模型AI Coding开发而成的程序员工具网站
别买树莓派了!3步教你在安卓手机上跑通 CPython + PaddleOCR,打造随身 AI 识别终端
Spring AI Alibaba 入门指南
央企程序员AI创业后续
AI幻觉闲聊杂谈
AI Agent详解
最新AI换脸软件,全面升级可直播,Mirage下载介绍(支持cpu)
C#AI系列(7):从零开始LLM之Tokenizer实现
C#AI系列(7):从零开始LLM之Tokenizer实现
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
安全
Java 25 (LTS) 重磅发布:AI、性能、安全全面革新,新手入门门槛再创新低!
2
314
肿圬后
2025-12-16
业界
一个完全由大模型AI Coding开发而成的程序员工具网站
0
482
龙梨丝
2025-12-17
业界
别买树莓派了!3步教你在安卓手机上跑通 CPython + PaddleOCR,打造随身 AI 识别终端
0
847
蔬陶
2025-12-18
科技
Spring AI Alibaba 入门指南
0
734
靳谷雪
2025-12-18
业界
央企程序员AI创业后续
0
399
猷咎
2025-12-19
安全
AI幻觉闲聊杂谈
1
794
官厌
2025-12-19
业界
AI Agent详解
0
783
宓碧莹
2025-12-20
科技
最新AI换脸软件,全面升级可直播,Mirage下载介绍(支持cpu)
0
669
稞冀
2025-12-20
业界
C#AI系列(7):从零开始LLM之Tokenizer实现
0
268
郜庄静
2025-12-21
业界
C#AI系列(7):从零开始LLM之Tokenizer实现
0
280
卜笑
2025-12-21
回复
(1)
强怀梅
2025-12-4 16:00:59
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
用心讨论,共获提升!
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
浏览过的版块
安全
签约作者
程序园优秀签约作者
发帖
映各
2025-12-4 16:00:59
关注
0
粉丝关注
25
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
3934307807
991124
anyue1937
9994892
kk14977
6845357
4
xiangqian
638210
5
韶又彤
9997
6
宋子
9981
7
闰咄阅
9993
8
刎唇
9993
9
俞瑛瑶
9998
10
蓬森莉
9950
查看更多
今日好文热榜
957
MAUI库推荐二:MPowerKit
955
.NET10 New feature 新增功能介绍-JIT编译
402
报考陪诊师选守嘉陪诊的理由
268
C#AI系列(7):从零开始LLM之Tokenizer实现
280
C#AI系列(7):从零开始LLM之Tokenizer实现
822
Pytest 测试用例自动生成:接口自动化进阶
846
一天一个Python库:NumPy - 科学计算的基石
12
FFmpeg 内存输入&输出
742
一文读懂RAG架构如何助力AI
497
一文读懂RAG架构如何助力AI
544
ROS2之TF介绍
398
SW 随笔 001 — InlineArray 带你飞(Since
691
当遇见 CatchAdmin V5-模块化设计重新定义
492
【有手就行】SWIFT:花20分钟把大模型的名
562
论文速读记录 | 2025.12(2)
375
浮点数的本质:为什么计算机无法精确表示0.
728
Flink源码阅读:如何生成JobGraph
931
Python 潮流周刊#132:30 年 Python 自由职
483
大模型榜单周报(2025/12/20)
159
【节点】[LinearToGammaSpaceExact节点]原