新物网

当前位置:首页 > 科技

科技

限时免费!通义千问多模态大模型重磅升级:性能赶超GPT-4V和谷歌Gemini

时间:2024-01-26 12:01:32 小新新
1月26日消息,今日,阿里云公布多模态大模型研究进展。据悉,通义千问视觉理解模型Qwen-VL再次升级,继Plus版本之后,再次推出Max版本,升级版模型拥有更

1月26日消息,今日,阿里云公布多模态大模型研究进展。

据悉,通义千问视觉理解模型Qwen-VL再次升级, 继Plus版本之后,再次推出Max版本,升级版模型拥有更强的视觉推理能力和中文理解能力, 能够根据图片识人、答题、创作、写代码,并在多个权威测评中获得佳绩,整体性能堪比GPT-4V和Gemini Ultra。

Qwen-VL-Plus和Qwen-VL-Max在MMMU、MathVista等测评中远超业界所有开源模型,在文档分析(DocVQA)、中文图像相关(MM-Bench-CN)等任务上超越GPT-4V,达到世界最佳水平。

基础能力方面,升级版模型能够准确描述和识别图片信息,并且根据图片进行信息推理、扩展创作;具备视觉定位能力,还可针对画面指定区域进行问答。