智谱AI视觉模型小白调用教程

翁真如 发表于 2025-5-31 23:41:10

借助智谱AI多模态视觉模型,我们可以实现对图片中内容进行识别。官方的教程已经比较详细,这里就不再赘述。
其调用方式主要有如下3种方式:

[*]使用SDK
[*]使用HTTP调用
[*]使用第三方框架
对于SDK需要安装zhipuai包,相关教程可以参考。
这里选择第2种方式,主要是不想安装无关的包。详情可以参考。官方提供了2种方式,直接使用api key或token的方式,对于token需要安装jwt进行加密。
要测试的图片如下:

可以看到是一只拿着iPhone手机的柴犬,坐在一个日式屋子里。
下面是其相关代码如下:
import requests

api_key = "..."
api_url = "https://open.bigmodel.cn/api/paas/v4/chat/completions"

headers = {
"Authorization":"Bearer {}".format(api_key),
"Content-Type":"application/json"
}
payload = {
"model":"glm-4v-flash",
"messages":[
{"role":"user","content":[
{"type":"image_url","image_url":{"url":"https://b0.bdstatic.com/ugc/aM36M2yNKeS7CZZXT61Jowf35f1772d2c706998acc7124728b4a5b.jpg"}},
{"type":"text","text":"请详细描述这张图片,包括元素、元素位置、颜色等"}
]}
]
}
try:
response = requests.post(api_url,headers=headers,json=payload)
response.raise_for_status()
result = response.json()
if "choices" in result:
answer = result["choices"]["message"]["content"]
print("AI",answer)
else:
print("not response")
except Exception as e:
print(e)输出结果如下:
这张图片展示了一只穿着传统和服的柴犬，它正用前爪拿着一部智能手机自拍。以下是图片中的主要元素及其位置的详细描述：

1. **柴犬**：
- 主体是一只柴犬，位于图片的中心位置。
- 柴犬身穿一件传统的日本和服，和服的颜色是浅棕色，上面有花卉图案。

2. **智能手机**：
- 柴犬的前爪握着一部智能手机，手机竖直放置，屏幕朝向柴犬的脸部方向。
- 手机背面有一个明显的苹果标志，表明这是一部iPhone。

3. **背景**：
- 背景中有一些典型的日式装饰元素，如纸拉门（滑动门）和一些悬挂的灯笼。
- 灯笼发出柔和的光线，为整个场景提供了温暖的照明效果。

4. **灯光**：
- 图片上方有两个悬挂的球形灯泡，散发出温暖的光芒，增加了画面的温馨感。

5. **整体氛围**：
- 整个画面给人一种宁静而优雅的感觉，结合了现代科技与传统文化的元素，形成了一种有趣的对比。

这张图片巧妙地将一只狗拟人化，让它看起来像是在进行人类的活动——自拍，从而产生了幽默的效果。同时，通过使用传统的日本服饰和
室内装饰，营造了一种文化氛围。这里选择模型是免费的glm-4v-flash,整个流程可以说非常简单,主要是提示词的编写需要花点心思。可以看到其输出还是比较详细的。
需要注意的是免费的glm-4v-flash模型不支持图片的Base64编码,因此只能使用在线URL进行测试。

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

页: [1]

程序园's Archiver

智谱AI视觉模型小白调用教程