基于AX650N芯片部署MiniCPM-V 2.0高效端侧多模态大模型-电子发烧友网

MiniCPM-V 2.0: 具备领先OCR和理解能力的高效端侧多模态大模型

一背景

今年4月份，面壁智能&清华大学自然语言处理实验室推出MiniCPM系列的最新多模态版本MiniCPM-V 2.0。该模型基于MiniCPM 2.4B和SigLip-400M构建，共拥有2.8B参数。MiniCPM-V 2.0具有领先的光学字符识别（OCR）和多模态理解能力。该模型在综合性OCR能力评测基准OCRBench上达到开源社区的最佳水平，甚至在场景文字理解方面实现接近Gemini Pro的性能。简单来说，就是能够实现更好地理解图片中内容，实现精准的“以图生文”的能力，所见即所得。

本文将通过走马观花的方式，初探MiniCPM-V 2.0的新特性。同时也将分享基于爱芯元智的AX650N芯片适配MiniCPM-V 2.0的最新进展，向业界对端侧多模态大模型部署的开发者提供一种新的思路，促进社区对端侧多模态大模型的探索。

二MiniCPM-V介绍

2.1 MiniCPM-V 2.0特性

● 领先的OCR和多模态理解能力。MiniCPM-V 2.0显著提升了OCR和多模态理解能力，场景文字理解能力接近Gemini Pro，在多个主流评测基准上性能超过了更大参数规模（例如17-34B）的主流模型。

● 可信行为。MiniCPM-V 2.0是第一个通过多模态RLHF对齐的端侧多模态大模型。该模型在Object HalBench达到和GPT-4V相仿的性能。

● 任意长宽比高清图像高效编码。MiniCPM-V 2.0可以接受180万像素的任意长宽比图像输入（基于最新的LLaVA-UHD威廉希尔官方网站），这使得模型可以感知到小物体、密集文字等更加细粒度的视觉信息。

● 高效部署。MiniCPM-V 2.0可以高效部署在大多数消费级显卡、个人电脑以及移动手机等终端设备。

● 双语支持。MiniCPM-V 2.0提供领先的中英双语多模态能力支持。该能力通过VisCPM[ICLR'24]论文中提出的多模态能力的跨语言泛化威廉希尔官方网站实现。

2.2 多模态“小钢炮”

MiniCPM-V 2.0与参数规模更大的多模态大模型相比，也表现出优秀的成绩，不愧是业界“小钢炮”。

三芯片介绍

3.1 AX650N

爱芯元智第三代高能效比智能视觉芯片AX650N。集成了八核Cortex-A55 CPU，高能效比NPU，支持8K@30fps的ISP，以及H.264、H.265编解码的 VPU。接口方面，AX650N支持64bit LPDDR4x，多路MIPI输入，千兆Ethernet、USB、以及HDMI 2.0b输出，并支持32路1080p@30fps解码内置高算力和超强编解码能力，满足行业对高性能边缘智能计算的需求。通过内置多种深度学习算法，实现视觉结构化、行为分析、状态检测等应用，高效率支持基于Transformer结构的视觉大模型和语言类大模型。提供丰富的开发文档，方便用户进行二次开发。

四上版部署

我们已实现“命令行”和“UI”两种示例，其中“命令行”版本已上传到网盘中，欢迎试用。

4.1 命令行版本

测试图片：

测试结果：

4.2 GUI版本

4.3 性能统计

项目	描述
输入图片大小	280 x 280
Image Encoder	0.8s
Input Prompt	96 tokens
Prefill Time	0.4s
Decoder	5 tokens/s

五结束语

随着大语言模型小型化的快速发展，越来越多有趣的多模态AI应用将逐渐从云端服务迁移到边缘侧设备和端侧设备。我们会紧跟行业最新动态，适配更多的端侧大模型，欢迎大家持续关注。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

自然语言处理

自然语言处理

+关注

关注
1

文章
618

浏览量
13553
爱芯元智

爱芯元智

+关注

关注
1

文章
78

浏览量
4830
大模型

大模型

+关注

关注
2

文章
2425

浏览量
2645

原文标题：爱芯分享 | 基于AX650N部署MiniCPM-V 2.0

文章出处：【微信号：爱芯元智AXERA，微信公众号：爱芯元智AXERA】欢迎添加关注！文章转载请注明出处。

基于AX650N/AX630C部署端侧大语言模型Qwen2

本文将分享如何将最新的端侧大语言模型部署到超高性价比SoC上，向业界对端侧大

发表于 07-06 17:43 •3517次阅读

基于<b class='flag-5'>AX650N</b>/<b class='flag-5'>AX</b>630C<b class='flag-5'>部署</b><b class='flag-5'>端</b><b class='flag-5'>侧</b>大语言<b class='flag-5'>模型</b>Qwen2

基于AX650N/AX630C部署多模态大模型InternVL2-1B

InternVL2是由上海人工智能实验室OpenGVLab发布的一款多模态大模型，中文名称为“书生·万象”。该模型在多学科问答（MMMU）等任务上表现出色，并且具备处理多种

发表于 11-18 17:32 •695次阅读

基于<b class='flag-5'>AX650N</b>/<b class='flag-5'>AX</b>630C<b class='flag-5'>部署</b><b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>InternVL2-1B

爱芯元智发布第三代智能视觉芯片AX650N，为智慧生活赋能

中国上海 2023 年 3 月 6 日 ——人工智能视觉感知芯片研发及基础算力平台公司爱芯元智宣布推出第三代高算力、高能效比的SoC芯片——AX650N。这是继AX620、

发表于 03-07 10:57 •1602次阅读

爱芯元智发布第三代智能视觉<b class='flag-5'>芯片</b><b class='flag-5'>AX650N</b>，为智慧生活赋能

【爱芯派 Pro 开发板试用体验】爱芯元智AX650N部署yolov5s 自定义模型

爱芯元智AX650N部署yolov5s 自定义模型本博客将向你展示零基础一步步的部署好自己的yolov5s模型（博主展示的是安全帽

发表于 11-16 19:34

【爱芯派 Pro 开发板试用体验】爱芯元智AX650N部署yolov8s 自定义模型

爱芯元智AX650N部署yolov8s 自定义模型本博客将向你展示零基础一步步的部署好自己的yolov8s模型（博主展示的是自己训练的手

发表于 11-24 20:40

爱芯元智第三代智能视觉芯片AX650N高能效比SoC芯片

爱芯元智正式推出第三代高算力、高能效比的SoC芯片——AX650N。这是继AX620、AX630系列后，爱芯元智推出的又一款高性能智能视觉芯片

发表于 03-10 17:13 •4073次阅读

基于AX650N部署DETR

目标检测作为计算机视觉应用的基础任务，一直备受william hill官网重点关注。从最早学术界的Two-Stage方案Faster-RCNN，到首个利于工业界高效率部署的One-Stage方案SSD（Single

发表于 05-15 14:27 •830次阅读

基于AX650N部署EfficientViT

端侧场景通常对模型推理的实时性要求较高，但大部分轻量级的Vision Transformer网络仍无法在已有边缘侧/端

发表于 05-26 10:30 •1035次阅读

爱芯元智AX650N成端侧、边缘侧Transformer最佳落地平台

Transformer是当前各种大模型所采用的主要结构，而ChatGPT的火爆让人们逐渐意识到人工智能有着更高的上限，并可以在计算机视觉领域发挥出巨大潜能。相比于在云端用GPU部署Transformer大模型，在边缘

发表于 05-30 11:04 •1003次阅读

多模态大模型产业高峰论坛成功举办 ChatImg2.0、软通天璇2.0 MaaS平台重磅发布

5月30日，“多模态大模型产业高峰论坛”在软通动力总部举行。近百位专家学者、行业大咖和产业精英齐聚一堂，共同探讨多模态大

发表于 05-31 10:14 •632次阅读

基于AX650N部署视觉大模型DINOv2

最近一段时间，基于Transformer网络结构的视觉大模型呈现出爆发式增长，继Segment Anything（SAM）之后，Meta AI再次发布重量级开源项目——DINOv2。DINOv2可以抽取到强大的图像特征，且在下游任务上不需要微调，这使得它适合作为许多不同的应用中新的Backbone。

发表于 06-30 10:07 •2992次阅读

爱芯元智AX620E和AX650系列芯片正式通过PSA Certified安全认证

万物互联的时代，安全性已成为物联网产品设计及部署的基本要求。近日，爱芯元智AX620E和AX650系列芯片（包含AX630C/

发表于 04-23 15:45 •806次阅读

PerfXCloud 重大更新端侧多模态模型 MiniCPM-Llama3-V 2.5 闪亮上架

近日，PerfXCloud完成重大更新，上架了面壁小钢炮 MiniCPM 系列的端侧多模态模型

发表于 08-27 18:20 •514次阅读

利用OpenVINO部署Qwen2多模态模型

多模态大模型的核心思想是将不同媒体数据（如文本、图像、音频和视频等）进行融合，通过学习不同模态之间的关联，实现更加智能化的信息处理。简单来说，多

发表于 10-18 09:39 •413次阅读

高通与智谱推动多模态生成式AI体验的终端侧部署

此前，骁龙峰会首日，智谱与高通威廉希尔官方网站公司宣布合作将GLM-4V端侧视觉大模型，面向骁龙8至尊版进行深度适配和推理优化，支持丰富的多模态交互方式

发表于 11-08 09:55 •172次阅读