杭州领跑AI开源!阿里Qwen除夕开源视觉理解新旗舰,全系列3尺寸,7B模型超GPT-4o-mini
眼看着半只脚都跨进蛇年了,杭州城还是一如既往真卷啊!
今天凌晨 4 点,阿里通义 Qwen 发布新春节礼第二弹:推出视觉理解模型 Qwen2.5-VL,开源的。
可以支持视觉理解事物、Agent、理解长视频并且捕捉事件、视觉定位和结构化输出等等。
Qwen2.5-VL 是 Qwen 系列旗下全新的视觉理解模型,也被官方称为"旗舰视觉语言模型",推出了3B、7B 和 72B 三个版本。
官方放出的测试结果,Qwen 系列视觉旗舰中的旗舰—— Qwen2.5-VL-72B-Instruct,在一系列涵盖多个领域和任务的基准测试中表现如下。
包括大学水平的问题、数学、文档理解、视觉问答、视频理解和视觉 Agent:
而此系列中的 7B 模型,Qwen2.5-VL-7B-Instruct,在多个任务中超越了 GPT-4o-mini。
此外,通义 Qwen 团队还将 Qwen2.5-VL-3B 称为"端侧 AI 的潜力股",它以 3B 之身,超越了此前的 Qwen2-VL-7B。
可以观察到的一点是,Qwen2.5-VL 在理解文档和图表方面表现突出。
此外,当作为视觉 Agent 操作时,Qwen2.5-VL 无需进行特定任务的微调。
官方宣布,Qwen2.5-VL 的 Base 和 Instruct 模型,全系列 3B、7B、72B 仨尺寸的模型,已经统统开源。
(按惯例,文末有之指路直通车)
Qwen 旗下全新视觉旗舰,模型能力如何?
下面展示对 Qwen2.5-VL 在 6 个方面的能力:
视觉定位能力
通用图像识别能力
Qwen 特色的文档解析
能够操作电脑和手机的视觉 Agent
增强的视频理解能力
文字识别和理解能力
视觉定位能力
据官方信息,Qwen2.5-VL 可以采用矩形框和点的多样化方式,对通用物体定位,并实现层级化定位和规范的 JSON 格式输出。
譬如,喂给它一张街头实拍图,并输入 Prompt:
检测图像中的所有摩托车手,并以坐标形式返回他们的位置。输出格式应类似于 { " bbox_2d " : [ x1, y1, x2, y2 ] , " label " : " motorcyclist " , " sub_label " : " wearing helmat " # 或 " not wearing helmat " }。
然后你将得到一个用不同颜色方框,框选中图中载人摩托车的返回结果:
坐标返回也没落下,按要求返回:
Qwen 团队表示,Qwen2.5-VL 增强的定位能力,提供了在复杂场景中,视觉 Agent 进行理解和推理任务的基础。
通用图像识别能力
此外,相较于视觉模型系列前作 Qwen2-VL,Qwen2.5-VL 主要提升了其通用图像识别能力。
同时扩大了模型可识别的图像类别量级,包括动植物、著名山川河流等地标,还包括各种影视 IP,以及各类商品。
Prompt:这些景点是什么?请用中文和英文给出它们的名字。
量子位亲测,Qwen2.5-VL-72B-Instruct 给出的答案如下:
Qwen 特色的文档解析
在 Qwen2.5-VL 中,研发团队设计了一种"更全面的文档解析格式",称为 QwenVL HTML 格式。
简单来说,该模式下的 Qwen2.5-VL,既可以将文档中的文本精准地识别出来,也能够提取文档元素(如图片、表格等)的位置信息,从而准确地将文档中的版面布局进行精准还原。
以下为 Qwen 团队的官方测试 demo。
Prompt:QwenVL HTML。
同时喂给下面这张图片:
Qwen2.5-VL 吐回的结果是酱婶儿的:
研发人员还表示,基于精心构建的海量数据,QwenVL HTML 可以对广泛的场景进行鲁棒的文档解析,比如杂志、论文、网页等。
甚至包含手机截屏~
能够操作电脑和手机的视觉 Agent
通过利用内在的感知、解析和推理能力,Qwen2.5-VL 展现出了不错的设备操作能力。
包括在手机、网络平台和电脑上执行任务。
譬如,让它帮忙订一张今天从重庆飞北京的机票:
Prompt:请帮我通过预订应用查看单程机票。出发点是重庆江北机场,终点是北京首都机场,日期是 1 月 28 日。
请欣赏它的执行过程和背后代码(虽然执行过程的动作速度还比较缓慢):
视频理解能力
视频里能力方面,在时间处理上,Qwen2.5-VL 引入了动态帧率(FPS)训练和绝对时间编码技术。
如此一来,模型不仅能够支持小时级别的超长视频理解,还具备秒级的事件定位能力。
它不仅能够准确地理解小时级别的长视频内容,还可以在视频中搜索具体事件,并对视频的不同时间段进行要点总结,从而快速、高效地帮助用户提取视频中蕴藏的关键信息。
譬如,让它观看以下视频,并列出视频中出现的 paper 名字。
它吐出来的结果如下:
文字识别和理解能力
最后,Qwen2.5-VL提升了 OCR 识别能力——
增强了多场景、多语言和多方向的文本识别和文本定位能力。
同时,该系列模型又着重增强了信息抽取能力,以满足日益增长的资质审核、金融商务等数字化、智能化需求。
Qwen2.5-VL 系列,升级在哪里?
去年 9 月 2 日,阿里通义团队开源了上一代(也是第二代)视觉语言模型 Qwen2-VL,当时推出的是 2B、7B 两个参数版本,及其及其量化版本。
当时的 Qwen2-VL 可以理解 20 分钟以上长视频,以及可集成后自主操作手机和机器人。
与 Qwen2-VL 相比,Qwen2.5-VL 增强了模型对时间和空间尺度的感知能力,并进一步简化了网络结构以提高模型效率。
具体可分为两个方面。
其一是时间和图像尺寸的感知。
在空间维度上,Qwen2.5-VL 不仅能够动态地将不同尺寸的图像转换为不同长度的 token,还直接使用图像的实际尺寸来表示检测框和点等坐标,而不进行传统的坐标归一化。
这使得模型能够直接学习图像的尺度。
在时间维度上,引入了动态 FPS(每秒帧数)训练和绝对时间编码,将 mRoPE id 直接与时间流速对齐。
这使得模型能够通过时间维度 id 的间隔来学习时间的节奏。
其二是更简洁高效的视觉编码器。
视觉编码器在多模态大模型中扮演着至关重要的角色。
Qwen2.5-VL 团队从头开始训练了一个原生动态分辨率的 ViT,包括 CLIP、视觉 - 语言模型对齐和端到端训练等阶段。
为了解决多模态大模型在训练和测试阶段 ViT 负载不均衡的问题,研究人员又引入了窗口注意力机制,有效减少了 ViT 端的计算负担。
在 Qwen2.5-VL 的 ViT 设置中,只有四层是全注意力层,其余层使用窗口注意力。
最大窗口大小为 8x8,小于 8x8 的区域不需要填充,而是保持原始尺度,确保模型保持原生分辨率。
此外,为了简化整体网络结构,团队使 ViT 架构与 LLMs 更加一致,采用了 RMSNorm 和 SwiGLU 结构。
在此基础上,Qwen2.5-VL 呈现出如下主要特点:
第一,视觉理解:
Qwen2.5-VL 不仅擅长识别常见物体,如花、鸟、鱼和昆虫,还能够分析图像中的文本、图表、图标、图形和布局。
第二,Agent:
Qwen2.5-VL 直接作为一个视觉 Agent,可以推理并动态地使用工具,初步具备了使用电脑和使用手机的能力。
第三,理解长视频和捕捉事件:
Qwen2.5-VL 能够理解超过 1 小时(进步了 40 分钟)的视频,并且它具备了通过精准定位相关视频片段来捕捉事件的新能力。
第四,视觉定位:
Qwen2.5-VL 可以通过生成 bounding boxes 或者 points 来准确定位图像中的物体,并能够为坐标和属性提供稳定的 JSON 输出。
第五,结构化输出:
对于发票、表单、表格等数据,Qwen2.5-VL 支持其内容的结构化输出,有助于在金融、商业等领域的应用。
One More Thing
目前,Qwen2.5-VL 全系列已经开源在抱抱脸、魔搭社区。
而 Qwen Chat 官网可直接体验 Qwen2.5-VL-72B-Instruct。
Qwen 团队还表示:
在不久的将来,我们将进一步提升模型的问题解决和推理能力,同时整合更多模态。
这将使模型变得更加智能,并推动我们向着能够处理多种输入类型和任务的综合全能模型迈进。
看来,推理、多模态是 Qwen 团队的下一步重点,最终星辰大海是综合全能模型。
Qwen Chat:
https://chat.qwenlm.ai
抱抱脸:
https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5
魔搭:
https://modelscope.cn/collections/Qwen25-VL-58fbb5d31f1d47
参考链接:
https://mp.weixin.qq.com/s/RhRcULJrEGwasMLoNYXPOw
上一篇:澳波: 利物浦是目前最出色的球队 我们会踢出自己的风格
下一篇:没有了