智谱AI视觉模型小白调用教程
借助智谱AI多模态视觉模型,我们可以实现对图片中内容进行识别。官方的教程已经比较详细,这里就不再赘述。其调用方式主要有如下3种方式:
[*]使用SDK
[*]使用HTTP调用
[*]使用第三方框架
对于SDK需要安装zhipuai包,相关教程可以参考。
这里选择第2种方式,主要是不想安装无关的包。详情可以参考。官方提供了2种方式,直接使用api key或token的方式,对于token需要安装jwt进行加密。
要测试的图片如下:
可以看到是一只拿着iPhone手机的柴犬,坐在一个日式屋子里。
下面是其相关代码如下:
import requests
api_key = "..."
api_url = "https://open.bigmodel.cn/api/paas/v4/chat/completions"
headers = {
"Authorization":"Bearer {}".format(api_key),
"Content-Type":"application/json"
}
payload = {
"model":"glm-4v-flash",
"messages":[
{"role":"user","content":[
{"type":"image_url","image_url":{"url":"https://b0.bdstatic.com/ugc/aM36M2yNKeS7CZZXT61Jowf35f1772d2c706998acc7124728b4a5b.jpg"}},
{"type":"text","text":"请详细描述这张图片,包括元素、元素位置、颜色等"}
]}
]
}
try:
response = requests.post(api_url,headers=headers,json=payload)
response.raise_for_status()
result = response.json()
if "choices" in result:
answer = result["choices"]["message"]["content"]
print("AI",answer)
else:
print("not response")
except Exception as e:
print(e)输出结果如下:
这张图片展示了一只穿着传统和服的柴犬,它正用前爪拿着一部智能手机自拍。以下是图片中的主要元素及其位置的详细描述:
1. **柴犬**:
- 主体是一只柴犬,位于图片的中心位置。
- 柴犬身穿一件传统的日本和服,和服的颜色是浅棕色,上面有花卉图案。
2. **智能手机**:
- 柴犬的前爪握着一部智能手机,手机竖直放置,屏幕朝向柴犬的脸部方向。
- 手机背面有一个明显的苹果标志,表明这是一部iPhone。
3. **背景**:
- 背景中有一些典型的日式装饰元素,如纸拉门(滑动门)和一些悬挂的灯笼。
- 灯笼发出柔和的光线,为整个场景提供了温暖的照明效果。
4. **灯光**:
- 图片上方有两个悬挂的球形灯泡,散发出温暖的光芒,增加了画面的温馨感。
5. **整体氛围**:
- 整个画面给人一种宁静而优雅的感觉,结合了现代科技与传统文化的元素,形成了一种有趣的对比。
这张图片巧妙地将一只狗拟人化,让它看起来像是在进行人类的活动——自拍,从而产生了幽默的效果。同时,通过使用传统的日本服饰和
室内装饰,营造了一种文化氛围。这里选择模型是免费的glm-4v-flash,整个流程可以说非常简单,主要是提示词的编写需要花点心思。可以看到其输出还是比较详细的。
需要注意的是免费的glm-4v-flash模型不支持图片的Base64编码,因此只能使用在线URL进行测试。
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
页:
[1]