文章目录
-
- 1.多模态大模型介绍
-
- 1.1 多模态定义
- 1.2 多模态大模型的类型
- 1.3 GPT-4V 效果展示
- 2.多模态网络架构
1.多模态大模型介绍
1.1 多模态定义
多模态
指的是输入数据的类型,它可以是文本、视频、音频等不同的模态形式,包括各种表格,json,图像以及各种传感器采的数据
在深度学习传统模式一般都是采用单模态
训练范式,我们针对每一个模态甚至是每个任务,需要用单独的一个模型训练得到,但作为我们人类,对外面世界的感官,其实一直都是使用多个模态的信息,比如我们看视频的时候,我们会看图像,听声音,同时也会经常看字幕,这就包含了图像、音频、文字这三种模态的信息,而且三种模态信息之间互补,比如声音没听明白的地方,结合字幕就能看懂。因此在深度学习领域,越来越多人参与到研究多模态训练范式。
1.2 多模态大模型的类型
多模态主要包含以下三种类型