参数量 42 亿，微软公布 SLM 小语言 AI 模型最新成员 Phi-3-vision-新利18国际娱乐

参数量 42 亿，微软公布 SLM 小语言 AI 模型最新成员 Phi-3-vision

2024-05-26

关注

IT之家 5 月 26 最近，微软宣布了其小语言 AI 模型家族（SLM）最新成员“Phi-3-vision该模型以“视觉能力”为主，能理解图文内容，同时据说能在移动平台上流畅高效地运行。

据介绍，Phi-3-vision 是微软 Phi-3 家族第一个多模态模型，基于这个模型的文本理解能力 Phi-3-mini，同时也具备 Phi-3-mini 轻量级的特点，能够在移动平台上 / 嵌入终端运行；模型参数为 42 亿，大于 Phi-3-mini（3.8B），但小于 Phi-3-small(7B)上下文长度为 128k token，训练期间为 2024 年 2 月至 4 月。

IT之家注意到，Phi-3-vision 模型最大的特点就像它的名字一样，主要支持“图形识别能力”，声称能够理解现实世界的图片含义，快速识别和提取图片中的文本。

微软表示，Phi-3-vision 特别适用于办公场合，开发人员在识别图表和方块图时特别优化了该模型 (Block diagram) 据说，理解能力可以利用用户输入的信息进行推论，同时也可以得出一系列结论，为企业提供战略建议，被称为“效果与大模型相当”。

在模型训练方面，微软声称 Phi-3-vision 它由“各种类型的图片和文本数据培训”组成，包括一系列“严格选择的公共内容”，如“教科书等级”教育材料、代码、图形标记数据、现实世界知识、图表图片、聊天格式等，以确保模型输入内容的多样性。微软声称，他们使用的训练数据“可追溯性”不包含任何个人信息，以确保隐私。

在性能方面，微软提供 Phi-3-vision 与字节跳动相比 Llama3-Llava-Next（8B）、微软研究所与威斯康星大学和哥伦比亚大学合作 LlaVA-1.6（7B）、阿里巴巴通义千问 QWEN-VL-Chat 比较模型等竞争模型的图表，其中显示 Phi-3-vision 模型在多个项目中表现出色。

目前，微软已上传到该模型 Hugging Face，感兴趣的朋友可以访问项目地址：点击此进入

参数量 42 亿，微软公布 SLM 小语言 AI 模型最新成员 Phi-3-vision

相关阅读：

评论

热门资讯

集知网

相关阅读

韩国超导和低温学会：“LK-99”是室温超导体论据不足

韩国超导和低温学会将成立委员会验证争议中的“LK-99”材料

LK-99凉了？不是室温超导体？东南大学发预印本论文：零电阻但不抗磁

安科瑞电能管理系统在白城移动的应用

安科瑞电力监控系统在哈尔滨银行的应用

专访香港立法会议员吴杰庄：希望探讨沪港数字资产交易互联互通

安科瑞能耗在线监测系统在六安法院中的应用

SMJ100A罗德与施瓦茨信号发生器

简单实用：新一代IO-Link传感器/执行器模块

特普生在《储能热管理研究院》独家发布：热管理技术路线、市场与趋势

集知网

点击进入下一篇