视觉语言模型来了:支持中英文等多种语言
2023-08-29 15:14:51 来源:中关村在线
(相关资料图)
阿里云今日发布了大规模视觉语言模型Qwen-VL,并已在ModeScope平台上开源。此前,阿里云已经开源了通用模型Qwen-7B和对话模型Qwen-7B-Chat。 据介绍,Qwen-VL是一款支持中英文等多种语言的视觉语言模型。与以往的视觉语言模型相比,Qwen-VL不仅具备图文识别、描述、问答和对话的基本能力,还新增了视觉定位和图像中文字理解等功能。 Qwen-VL以Qwen-7B为基础,引入视觉编码器,使模型支持视觉信号输入。该模型支持的图像输入分辨率为448,而此前开源的LVLM模型通常仅支持224分辨率。 官方表示,Qwen-VL可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景。在主流的多模态任务评测和多模态聊天能力评测中,Qwen-VL的表现远超同等规模的通用模型。 在Qwen-VL的基础上,通义千问团队使用对齐机制,打造了基于LLM的视觉AI助手Qwen-VL-Chat,以便开发者快速搭建具备多模态能力的对话应用。 通义千问团队还表示,为了测试模型的多模态对话能力,他们构建了一套基于GPT-4打分机制的测试集“试金石”。在对Qwen-VL-Chat及其他模型进行对比测试后,Qwen-VL-Chat在中英文的对齐评测中均取得了开源LVLM最好的结果。
关键词:
推荐内容
- 视觉语言模型来了:支持中英文等多种语言
- 榆树展区:绿色农产品购销旺
- 小花钱包小花钱包(小花钱包吧)
- 健忘大王历险记 健忘大王历险记三个雷灵)
- 跨境支付板块8月28日涨1.33%,华峰超纤领涨,主力
- 8月29-31日玉林北流疾控开放九价hpv疫苗预约
- 美国佛罗里达州枪击事件已致4人死亡
- 企业年报率创历史佳绩丨梧州市在全区率先创新推出
- “豪车”深夜炸街!抓!
- 信贷紧缩蔓延加剧!继美国后 欧元区货币供应量十
- 邵东市宋家塘街道社区卫生服务中心举办医疗文书规
- 广西凭祥乡土人才“帮帮团”助力乡村振兴
- 提前剧透!第六届世界绿发会109个展位均为特装展示
- 众信旅游二季度净利润实现扭亏为盈
- 快别再把肉泡水里解冻啦,这种做法真的不可取!
- 第一尖,大公岙,县江源
- Here we go!曼城后卫坎塞洛租借加盟巴萨,含买断条款
- 菅茅根(关于菅茅根简述)
- 萍萍卡通花束(关于萍萍卡通花束简述)
- 原神3.5版本会送多少粉球
- 通讯:“无辜的孩子犯了什么罪!”——重访美军空
- 腰围22寸是多少厘米 22寸是多少厘米
- 平板支撑有什么用好处是什么(平板支撑有什么用)
- cdr怎么上色有金属效果 cdr如何做金属质感
- 基金前端和后端的区别是什么 基金前端和后端的区别
- 马自达CX-50行也紧凑型SUV推出限时10000元购置税补贴
- 手机怎么开热点给另外的手机用(手机怎么开热点)
- 莱阳市地税局志愿服务队(关于莱阳市地税局志愿服
- 清水煮虾的正确方法(清水煮虾几分钟熟)
- 苹果5价格表(苹果5的价格)
- 小型水果店装修效果图大全(小型水果店装修效果图
- 雨水洗尘,武汉迎来好空气
- 冰点还原怎么卸载电脑版_冰点还原怎么卸载
- 昱是火属性吗(昱字火字念什么)
- 新民艺评|对话,当代艺术传播的打开方式
- 专场报道 | 第十届兽医大会禽垂直传播和免疫抑
- 电子消费品制造业如何实现高质量发展?朗科智能给
- 水墨之美,给你鄂州独一份的浪漫!
- 富阳新桐乡暑期关爱活动“童”样精彩
- 优化生育(三孩)板块8月28日涨0.46%,嘉亨家化领