登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
安全
›
小米又开源了,一个多模态大模型,一个生不逢时的推理大 ...
小米又开源了,一个多模态大模型,一个生不逢时的推理大模型
[ 复制链接 ]
蓬庄静
2025-6-4 18:14:18
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
大家好,我是 Ai 学习的老章
上月底,小米开源了一个大模型:MiMo-7B,它从零开始训练并专为推理任务设计的模型系列。通过优化的预训练和后训练策略,MiMo-7B 展现出了超越许多更大模型的推理潜力。
昨天,小米又开源了 MiMo-VL-7B 系列多模态大模型、MiMo-7B-RL-0530 系列推理模型
咱们挨个看一下情况
MiMo-VL-7B 系列
MiMo-VL-7B 系列多模态大模型支持文字、图像、视频输入
技术报告:https://github.com/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report.pdf
模型文件:https://www.modelscope.cn/models/XiaomiMiMo/MiMo-VL-7B-RL/files
其中
MiMo-VL-7B-SFT 是经过投影器预热、视觉 - 语言对齐、通用多模态预训练和长上下文监督微调四个阶段预训练而得。
MiMo-VL-7B-RL 是 SFT 基础上引入了混合在线强化学习,无缝集成涵盖感知准确性、视觉基础精度、逻辑推理能力和人机偏好等多种奖励信号。
MiMo-VL-7B-RL 在多个方面都强于同等参数的 Qwen2.5-VL-7B(这个模型我在这篇文章中有介绍1 张 4090,本地部署多模态大模型,部署后我测试了几个图片理解问题,感觉 7B 做到这个程度,无可挑剔)
评估方面,感觉吹牛的可能性比较大
在一般的视觉语言理解中,MiMo-VL-7B 模型比同参数甚至更高参数的开源模型都优秀
在多模态推理中,SFT 和 RL 模型在这几项基准测试中均显著优于所有比较的开源基线。
MiMo-VL-7B-RL 具有出色的 GUI 理解和定位能力。作为一个通用的 VL 模型,MiMo-VL 达到了与专门针对 GUI 的模型相当甚至更优的表现。
PS:GUI 就是各种计算机操作的图形界面
MiMo-VL-7B 系列,既没有试用,又没有详细的本地部署文档,这一块,跟阿里差远了。
我真的蛮好奇是否真的可以吊打 Qwen2.5-VL-7B
改天部署试试
MiMo-7B-RL-0530 系列
模型文件:https://www.modelscope.cn/models/XiaomiMiMo/MiMo-7B-RL-0530/files 技术报告:https://arxiv.org/abs/2505.07608`
昨天小米还开源了 MiMo-7B-RL,太生不逢时了,赶上了DeepSeek R1 最新版本模型——DeepSeek-R1-0528,还有DeepSeek-R1-0528 蒸馏 Qwen3:8B 大模型,我用 2 张英伟达 4090 本地部署了,深得我心
模型细节就不看了,文末我用大模型基于小米这篇论文绘制了 PPT,感兴趣可以细看。
总结就是,在训练数据、预训练和后训练阶段都进行了优化,号称是在数学和代码推理任务上表现出色,达到了与 OpenAI o1-mini 相当的性能。
部署推理支持 SGLang 和 vLLM,前者 SGLang 官方已支持,vLLM 尚未合并分支,用起来稍麻烦
# Install the latest SGlang from main branch python3 -m uv pip install "sglang[all] @ git+https://github.com/sgl-project/sglang.git/@main#egg=sglang&subdirectory=python" # Launch SGLang Server SGLANG_USE_MODELSCOPE=true python3 -m sglang.launch_server --model-path XiaomiMiMo/MiMo-7B-RL --host 0.0.0.0 --trust-remote-code
复制代码
这个我就更懒的测试了,铁定不如DeepSeek-R1-0528-Qwen3-8B
小米这篇论文,我转成了 PPT,感兴趣看看
<strong>制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
一个
大模型
小米
开源
模态
相关帖子
带vip功能的一个网盘系统
一个简单易用、功能强大的 AI 图片生成工具
开源软件那些事儿:企业用到底划不划算?
在前端项目中安全调用大模型 API 的实践,我是怎么做的?
精致简约!一款优雅的开源云盘系统!
开源神器!我用YOLOv8+FastAPI打造了一个视频关键帧提取工具,3秒处理30秒视频
搞定多模态微调只需一杯咖啡的时间?FC DevPod + Llama-Factory 极速实战
【GitHub每日速递 20251211】开源免费!OpenCode——能在终端畅用的AI编码神器来袭
别再说 WinForm 做的工业软件丑了!这些开源库让它颜值拉满、交互流畅
在windows平台搭建一个mini版本的k8s集群
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
程序
带vip功能的一个网盘系统
2
43
新程序
2025-12-06
安全
一个简单易用、功能强大的 AI 图片生成工具
0
634
崆蛾寺
2025-12-07
安全
开源软件那些事儿:企业用到底划不划算?
0
656
裆趾针
2025-12-08
业界
在前端项目中安全调用大模型 API 的实践,我是怎么做的?
0
400
趣侮
2025-12-08
业界
精致简约!一款优雅的开源云盘系统!
0
687
梦霉
2025-12-09
业界
开源神器!我用YOLOv8+FastAPI打造了一个视频关键帧提取工具,3秒处理30秒视频
0
25
井晶灵
2025-12-10
业界
搞定多模态微调只需一杯咖啡的时间?FC DevPod + Llama-Factory 极速实战
0
10
嗦或
2025-12-10
安全
【GitHub每日速递 20251211】开源免费!OpenCode——能在终端畅用的AI编码神器来袭
0
943
孩负范
2025-12-11
业界
别再说 WinForm 做的工业软件丑了!这些开源库让它颜值拉满、交互流畅
0
988
嫁蝇
2025-12-11
业界
在windows平台搭建一个mini版本的k8s集群
0
83
计海龄
2025-12-11
回复
(6)
凉砧掌
2025-10-16 20:53:40
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
感谢分享,学习下。
尹心菱
2025-10-17 11:15:24
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
热心回复!
舒娅友
2025-10-25 02:26:44
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
新版吗?好像是停更了吧。
赶塑坠
2025-11-7 21:32:48
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
这个好,看起来很实用
缢闸
2025-11-18 07:07:23
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
很好很强大 我过来先占个楼 待编辑
庇床铍
7 天前
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
前排留名,哈哈哈
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
蓬庄静
7 天前
关注
0
粉丝关注
22
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
anyue1937
9994893
kk14977
6845356
3934307807
991123
4
xiangqian
638210
5
宋子
9984
6
韶又彤
9998
7
闰咄阅
9993
8
刎唇
9993
9
俞瑛瑶
9998
10
蓬森莉
9951
查看更多