登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
安全
›
OceanBase混合检索(Hybrid Search):多模态检索实战指 ...
OceanBase混合检索(Hybrid Search):多模态检索实战指南
[ 复制链接 ]
越蔓蔓
3 天前
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
摘要:
混合检索通过融合向量检索、稀疏检索和全文检索三种模态,克服单一检索方式的语义或关键词盲区,提升召回率与精确度。OceanBase推出的AI原生搜索数据库seekdb支持单次查询同时调用三种模态,并提供内置加权融合机制及预设搜索模式。配合Agentic RAG动态选择策略,提升召回与精度。
1.
从 Corrective RAG 到多模态检索
Corrective RAG(CRAG),通过文档评分和托底机制来提升 RAG 系统的可靠性,主要解决检索结果的质量验证问题。但在检索环节本身,传统 RAG 系统还存在一个根本性的问题:单一检索方式的盲区。
本章将解决这个问题:如何通过混合检索(Hybrid Search)结合多种检索方式,提升检索的召回率和精确度。
2.
为什么需要混合检索?
2.1 什么是混合检索?
混合检索(Hybrid Search)是一种结合向量检索、稀疏检索、全文检索三种模态,通过加权分数融合来提升检索效果的技术。它通过让不同检索方式互补,克服单一检索方式的盲区,从而提高召回率和精确度。
2.2 单一检索方式的问题
我们先来看看单靠一种检索方式会遇到什么问题。
向量检索的盲区:
向量检索擅长理解语义和概念,但它会遗漏精确的关键词。比如你搜索 “GAAP” 或 “Q3 2023” 这样的专有名词,向量检索可能会返回一些概念相似但实际不相关的结果。还有一个问题是过度泛化——它可能返回概念上相似,但实际上答非所问的文档。
关键词检索的盲区:
关键词检索擅长匹配精确的术语,但它不理解语义。比如你搜索 “machine learning”,它找不到包含 “AI” 的文档;你搜索“revenue”,它找不到包含 “earnings” 或 “income” 的内容。这就是语义盲区的问题。
问题的本质在于:向量检索会遗漏关键词,关键词检索会遗漏语义——每种方法都有自己的盲区。
2.3 混合检索:融合三种模态
混合检索的思路是:既然单一方法都有盲区,那就把它们组合起来。具体来说,混合检索结合了三种互补的检索方式:
三种检索方式各有侧重:
Vector Search (向量检索) → 理解语义相似度
Sparse Search (稀疏检索) → 匹配关键词和同义词
Full-text Search (全文检索) → 精确短语匹配
2.4 Hybrid RAG vs Corrective RAG
混合检索和纠错机制解决的是不同阶段的问题:
这两种技术可以完美配合:用混合检索提升检索质量,再用 Corrective RAG 进行质量验证。
3.
三种检索模态详解
理解了混合检索的必要性后,我们来深入了解构成混合检索的三种核心模态。
3.1 向量检索(Vector Search)
向量检索通过将文本转换为稠密向量(Dense Embeddings,通常 768-1536 维),然后使用余弦相似度测量向量之间的角度,返回语义上最相似的文档。
它的优势在于理解概念和语义关系,能够处理释义和同义表达。但它无法精确匹配特定术语,比如 “GAAP” 或 “SKU-12345” 这样的专有名词。
适用场景:概念性查询,比如 “What causes inflation?”
3.2 稀疏检索(Sparse Search)
稀疏检索使用 TF-IDF(词频-逆文档频率)提取关键词,可以在词汇表内扩展同义词,基于关键词权重进行匹配(不是精确字符串匹配)。
TF-IDF 的原理是:Term Frequency × Inverse Document Frequency——在整个文档集中越罕见的词获得越高的权重。
稀疏检索的优势是能够匹配相关术语,比如 revenue、earnings、income 这些同义词,而且不需要嵌入模型。但它受词汇表维度限制,难以处理稀有专有名词。
典型应用场景:工具选择(Tool Selection)
稀疏检索在混合检索中发挥关键词匹配作用,特别在工具选择、术语敏感查询(如专有名词、技术缩写)中表现优异。
3.3 全文检索(Full-text Search)
全文检索通过构建带分词的倒排索引(Inverted Index),应用 BM25 评分算法(改进的 TF-IDF,加入了文档长度归一化),返回精确短语匹配的结果。
BM25 是 TF-IDF 的改进版本,它加入了文档长度归一化,避免长文档获得不公平的高分。
全文检索的优势是能够精确匹配短语(如 “Item 1A Risk Factors”),处理稀有专有名词,支持精确章节定位。但它无法处理拼写错误或变体,也不理解语义关系。
适用场景:精确章节查找,比如 “查找第 10-K 报告的风险因素章节”
3.4 三种模态的选择
没有单一模态是最好的,关键是根据查询模式组合使用:
4. seekdb
:AI 原生的搜索数据库
4.1 seekdb 是什么?
seekdb 是 OceanBase 推出的 AI 原生搜索数据库,它将向量存储、关系数据、全文搜索整合到一个统一的平台中。传统方案需要使用专门的向量数据库,会带来额外的运维成本和系统复杂度,seekdb 通过统一的多模型引擎解决了这个问题。
4.2 seekdb 的核心优势
4.3 为什么选择 seekdb 实现混合检索?
单次查询就能调用 3 种模态,无需调用外部服务
原生加权融合,内置 RRF 和线性组合算法
自动索引同步,向量、稀疏、BM25 索引自动维护
MySQL 协议,兼容现有工具和驱动
可以无缝迁移到 OceanBase 集群
5.
实战:实现混合检索
5.1 准备环境:
加载 embedding 模型
配置 OceanBase 连接
5.2 加载文档
首先加载源文档演示混合搜索。
5.3 初始化混合存储
启用三种搜索模式:
1密集向量:通过嵌入实现语义相似性
2稀疏向量:通过 TF-IDF 加权计算关键词重要性
3全文检索:精确短语和关键词匹配
5.4 生成稀疏向量
稀疏向量使用 TF-IDF(词频-逆文档频率)来表示关键词的重要性。
词频(TF):一个词在文档中出现的频率逆文档频率(IDF):一个词在语料库中出现的稀有度或重要性
基于词汇:直接将词映射到索引(无哈希冲突)
我们将构建一个自定义的 TF-IDF 编码器,使其能够在 OceanBase 的 50 万维度限制内工作。
5.5 准备全文内容
全文搜索需要独立的索引内容。我们将通过元数据增强页面内容
5.6 添加包含三种模态的文档
将文档存储到向量数据库,并建立三种索引。
5.7 测试各个模态
分别测试三种检索方式,对比搜索结果。
每种模态返回不同的结果——向量检索找到语义相关的内容,稀疏检索找到关键词匹配,全文检索找到精确短语。
5.7.1 向量搜索
5.7.2 稀疏向量搜索(关键词匹配)
5.7.3 全文检索(精确匹配)
6.
高级混合检索
在前面的步骤中,我们已经启用了三种检索模态并分别测试了它们的效果。现在的问题是:如何将这三种检索方式有效地组合起来?
这就是高级混合检索要解决的核心问题:通过加权分数融合,自动组合多种检索模态,获得比单一模态更好的检索效果。
6.1 内置分数融合机制
OceanBase 提供了 advanced_hybrid_search() 方法,可以自动组合三种模态的检索结果。
工作原理:
并行执行三种检索 - 同时运行向量检索、稀疏检索、全文检索
分数归一化 - 将每种模态的分数标准化到 0-1 范围
加权融合 - 应用权重公式:final_score = w₁×vector + w₂×sparse + w₃×fulltext
排序返回 - 按融合后的分数排序,返回 Top-K 结果
所有的分数归一化和融合逻辑都在 seekdb 内部自动完成,开发者只需要关注权重配置即可。搜索模式预设
6.1.1 搜索模式预设
不同类型的查询需要不同的权重配置。我们可以定义几种常用的搜索模式:
Balanced(平衡模式)
适合通用查询,比如 “Nike business in 2023”。权重配置:Vector 40%、Sparse 30%、Fulltext 30%。
Semantic(语义模式)
适合概念理解,比如 “What is Nike‘s strategy?”。权重配置:Vector 70%、Sparse 20%、Fulltext 10%。
Keyword(关键词模式)
适合特定术语、数字查询,比如 “Nike earnings2023”。权重配置:Vector 20%、Sparse 60%、Fulltext 20%。
Exact(精确模式)
适合法律文本、章节查找,比如 “Item 1A Risk Factors”。权重配置:Vector 10%、Sparse 20%、Fulltext 70%。
6.2 权重调优建议
从平衡模式开始 - 在不确定时使用 40/30/30 作为基准
根据业务场景调整 - 分析实际查询日志,找出主要查询类型
A/B 测试验证 - 对比不同权重配置的检索效果
允许动态调整 - 不同查询可以使用不同的权重配置
6.3 融合算法选择
除了线性加权组合,seekdb 还支持其他融合算法:
线性组合(Linear Combination) - 加权平均,适合大多数场景
RRF(Reciprocal Rank Fusion) - 基于排名融合,对分数尺度不敏感
最大值融合 - 取各模态的最高分,适合“或”逻辑
推荐做法:先使用线性组合,如果效果不理想再尝试 RRF。
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
检索
OceanBase
混合
Hybrid
Search
相关帖子
爱奇艺基于OceanBase实现百亿级卡券业务的“单库双擎”架构升级
AI 应用开发者的福音 —— OceanBase seekdb JavaScript / TypeScript SDK 正式开源!
一文速通 OceanBase 物化视图能力
浅入了解OceanBase混合搜索
解析 OceanBase 生态工具链 —— OAT / obd / OCP / obshell
Ubuntu Linux 上 固定P/E 核混合架构CPU频率
混合专家模型 (MoE) 详解
从 Vibe Coding 到 AI Agent,OceanBase seekdb 打造 AI 时代毫秒级数据沙箱
pgvector语义检索踩坑:为什么加了 ORDER BY 反而查不到数据?
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
安全
爱奇艺基于OceanBase实现百亿级卡券业务的“单库双擎”架构升级
16
325
轩辕琳芳
2026-01-30
安全
AI 应用开发者的福音 —— OceanBase seekdb JavaScript / TypeScript SDK 正式开源!
17
61
倡粤
2026-02-05
安全
一文速通 OceanBase 物化视图能力
14
148
余思洁
2026-02-06
安全
浅入了解OceanBase混合搜索
0
670
泥地锚
2026-02-24
安全
解析 OceanBase 生态工具链 —— OAT / obd / OCP / obshell
0
921
敛饺乖
2026-02-26
业界
Ubuntu Linux 上 固定P/E 核混合架构CPU频率
1
327
聚怪闩
2026-02-27
业界
混合专家模型 (MoE) 详解
0
6
梭净挟
2026-02-28
安全
从 Vibe Coding 到 AI Agent,OceanBase seekdb 打造 AI 时代毫秒级数据沙箱
0
113
恙髡
2026-02-28
业界
pgvector语义检索踩坑:为什么加了 ORDER BY 反而查不到数据?
1
361
龙正平
2026-02-28
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
越蔓蔓
3 天前
关注
0
粉丝关注
21
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
3934307807
991125
anyue1937
9994892
kk14977
6845359
4
xiangqian
638210
5
宋子
9888
6
韶又彤
9910
7
闰咄阅
9993
8
刎唇
9995
9
蓬森莉
9873
10
遗憩
10006
查看更多
今日好文热榜
388
一天一个Python库:multidict - 高级字典类
332
FastAPI分布式系统实战:拆解分布式系统中
818
3分钟搞懂深度学习AI:参数量与形状推导:
441
3分钟搞懂深度学习AI:参数量与形状推导:
614
从程序员到架构师:6大编程范式全解析与实
770
LeetCode 407 接雨水 II(3D 版):python3
734
ORACLE如何修改SEUQNCE的当前值
193
【译】Visual Studio 二月更新
995
如何设计一个扛住千万级流量的系统?
284
你写的代码能debug,生命却不能回滚
866
别只知道马蜂窝!这个旅行网站,攻略全、路
993
spring-事务管理
673
旅游猫
561
虚拟线程深度解析:轻量并发编程的未来趋势
775
程序员必读的AI Prompt最佳实践
983
为什么我拖了一个多月才开始使用OpenClaw?
411
【节点】[FresnelEquation节点]原理解析与
930
ManimCE v0.20.1 发布:LaTeX 渲染修复与动
274
安心存取,轻松分享!一款基于 CloudFlare
490
收藏! 2026最强开源AI编程工具清单:从代码