LLM的Transformer是否可以直接处理视觉Token？

宣传一下最近的新工作，个人感觉是读博以来做得最难最累但是成就感也最大的一个项目。它起源自一个很简单的问题——自LLM诞生以来，我们见到了很多把LLM接到Vision Backbone后面的算法，那么有两个自然的问题：

LLM的Transformer是否可以直接处理视觉Token？

LLM的Transformer是否可以提升处理视觉Token的Performance？

我们的工作回答了这两个问题 (答案是Yes) 而且解释了其中的原因：在语言模型中Pretrain的Transformer可以用作视觉任务的Encoder Layer。代码已经开源，欢迎大家点赞关注我们的Paper和GitHub。

Frozen Transformers in Language Models Are Effective Visual Encoder Layers 代码：github.com/ziqipang/LM4VisualEncoding

论文：https://arxiv.org/abs/2310.12973

1. LLM的Transformer可以处理视觉Token吗？

在LLM的加持下，很多Vision-language Model 会直接把来自图像的Embedding输入给LLM，并让LLM作为Decoder输出文字、类别、检测框等。但是在这些模型中，LLM并不会直接处理来自图像的Token，它们更多地是 (1) 处理提前设计好的语义Token，例如CLIP中的cls token；(2) 处理被压缩过的Token，例如BLIP里面经过information bottleneck的token。那么LLM是否可以直接作用于其它模态的Token呢，即LLM是否可以用作Encoder，而不只是Decoder呢？

1.1 实验方法

验证这个事情非常简单，以ViT为例，我们只需要：

取出某一个LLM的Transformer Layer (例如LLaMA的最后一个Transformer)，请注意这里只需要一个Transformer Block而不是整个LLM；

把它加入到最后一个Encoder Block后面，只需要额外两个Linear Layers把Feature Dimensions拉齐；

冻结LLM的Transformer，但是正常训练其它部分。

以ViT为例，我们的模型结构非常简单，只需要额外两个线性层

1.2 和现在的Vision-language Model的异同

是否需要Pretraining？我们的方法重在提升Encoding能力，所以我们既支持Train-from-scratch，也支持Finetune，而不是必须要依赖预训练好的Backbones。

是否需要Language？虽然我们用的是LLM的Transformer，但是我们的Framework独立于使用Language (比如Prompts或者Alignment)，而不是像Vision-language Models一样必须要Language。

可以处理多少模态？我们的Framework可以泛化到多个模态和任务，而不是只能处理图像。

Encoder和Decoder有什么区别？Encoder需要直接和Visual tokens打交道，比如和HxW个图像token的信息做Cross-attention去改变cls token。

现在已经有这么多Vision-language Models了，你们的研究有什么用？首先，我们的研究和现在的vision-language Models不矛盾而且互相补充——现在vision-language model研究如何把视觉embedding输入给LLM，而我们的研究聚焦如何提供更好的embedding。

1.3 一个预训练的LLaMA Transformer在许多不同模态、任务的Encoder上都有用

在论文中，我们发现把LLM的Transformer用作视觉Encoder可以泛化到极其多样的场景。

2D语义：图像分类 (image classification)

点云：点云分类 (point cloud classification)

视频：动作识别 (action recognition)

无语义，回归任务：轨迹预测 (motion forecasting)

2D多模态：2D VQA和图像搜索 (2D VQA and Retrieval)

3D多模态：3D VQA

在这些任务中，我们的模型不只要处理图像上像patch一样的Token，还要处理

点云中无规则的3D点

视频中形状是TxHxW的长方体形状的token

轨迹预测里面来自Agent和高精地图的Polylines

多模态任务中混合了图像和语言的Token

ImageNet, 图像分类

2D/3D 语言多模态任务

自动驾驶，轨迹预测

2. 为什么预训练的LLM Transformer有用：Information Filtering Hypothesis

虽然我们在许多任务和模态上都看到了性能的提升，但是如何解释这一点呢？我们在研究的过程中感觉如果把加了LLM的提升都归结于"LLM包含了可以泛化的知识"，其实比较偷懒而且不一定正确。所以我们研究了Token在加LLM transformer前后的变化提出了Information Filtering假设：

LLM Transformer模块能够在训练的过程中筛选和目标任务相关的Visual Tokens并且放大他们的贡献。

这个结论是我们paper里面可能最重要的发现。

2.1 在ViT上的观察 —— LLM Transformer筛选出了前景

为什么可以这么说呢？我们看下图中我们对ViT的Token Activation的可视化：为了体现不同Token的贡献，我们从本身Activation的大小(L2-norm)和频率大小进行了可视化(做傅里叶变换后算角度的L2-norm)。

可以看到：在有了LLM Transformer之后，ViT的Activation能更干净地集中到前景区域，而这个性质只有在无监督学习的ViT中(e.g. DINO)中可以见到，在监督学习的ViT中很少见。

另一方面，我们对比了有/没有LLM transformer对于Attention weight的影响：普通的ViT的Attention Weight几乎是完全Noisy的 (和DINO的观察吻合)，在加了LLMTransformer之后 (1) 有极少的Attention Head体现出了干净的前景分割的样子，但是 (2) 它们的数量较少不足以解释Token Activation更显著地好。

因此，我们观察到的提升来自有用的Feature被放大了，这也是为什么我们称之为information filtering hypothesis。

2.2 在其它任务的也可以筛选有用的Token

类似的“information filtering”现象不只在ViT和图像分类上有，在其它任务上，LLM Transformer也有效地提升了对目标任务最有用的Token。这里我们举两个例子：

在动作识别中，加了LLaMA的Transformer可以更好地集中到前景的手和物体(low threshold)，也更多地筛选出了手和物体有实际动作的帧(high threshold)。

在3D VQA中，我们可视化了点云Token的大小。可以看到，那些真正和预测目标、或者问题相关的点得到了更大的关注：比如在左图中，"behind me"的点云显著得到了更大的Activation (颜色更亮了)。

3. 一点Ablation Study

那么我们观察到的现象，即LLM的Transformer可以提升Visual Encoding，是否和不同的层、LLM有关呢？

多种LLM Transformer都可以提升Visual Encoding。例如用LLaMA和OPT的不同Transformer层都会有提升，而且不同层之间也会体现不同的规律。

只有足够大的LLM才有提升Visual Encoding的效果。例如只有足够大的OPT才会提升Visual Encoding的效果。

4. 后记

最后写一些没有写在Paper里面的自己的感受和思考：

在论文中最让我感到兴奋的不是结合了LLM在很多Task上都有提升，而是在我们Information filtering假设的分析中看到了质变：神经网络能够更好地学习到那些和任务最相关的Token。

那么为什么会有这样的效果？我猜测是LLM的Transformer的参数矩阵，例如FFN的矩阵，有一些很好的性质，例如在某些情况下是一个高通滤波器。我们可以从反面思考，如果一个参数矩阵是随机初始化(低通滤波器)，或者干脆就是一个单位矩阵，那么必然不可能去筛选出来有用的Token，并且放大他们的贡献。

在尝试解释这个现象的时候，我们发现用transfer learning的工具来分析会非常有难度，因为我们不能保证vision和language确实在一层transformer之后就align了。最终，一个比较合理的直觉是受到了我本科同学许逸伦"A Theory of Usable Information Under Computational Constraints"这篇Paper的启发：我们可以把LLM Transformer看作一种Decipher，它提升了Feature的有用性，使得一层MLP或者Decoder的有限计算资源可以把Feature映射到和真实结果Mutual Information更高的空间中。事实上，这也契合我们Information filtering的观察。

编辑：黄飞

阅读全文

神经网络(98386) 神经网络(98386)
自动驾驶(162872) 自动驾驶(162872)
无监督学习(2732) 无监督学习(2732)
高通滤波器(10802) 高通滤波器(10802)

对比解码在LLM上的应用

为了改进LLM的推理能力，University of California联合Meta AI实验室提出将Contrastive Decoding应用于多种任务的LLM方法。实验表明，所提方法能有效改进LLM的推理能力。让我们走进论文一探究竟吧！

2023-09-21 11:37:55

327

LLM3225

LLM3225 - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R15H

LLM3225-R15H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R18H

LLM3225-R18H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R33H

LLM3225-R33H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R56H

LLM3225-R56H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R68H

LLM3225-R68H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

Token、Cookie、Session之间的联系概述

一分钟理解 Token、Cookie、Session 的基佬关系

2019-07-25 15:41:09

是否可以使用内部FPGA的资源连接到总线

你好！我正在设计一个MIL-STD控制器。该标准意味着使用直接或变压器耦合连接到总线。我是否可以使用内部FPGA的资源来完成此连接方法，ori是否必须使用其他外部设备？先谢谢你！以上来自于谷歌翻译

2018-09-30 11:19:29

视觉传感器的工作原理、应用和选型

系统信息的直接来源，主要由一个或者两个图形传感器组成，有时还要配以光投射器及其他辅助设备。视觉传感器的主要功能是获取足够的机器视觉系统要处理的最原始图像。

2020-08-05 07:53:42

视觉传感器的工作原理、应用和选型

2020-08-12 07:33:53

ABBYY FineReader 和 ABBYY PDF Transformer+功能比对

ABBYY FineReader 12是市场领先的文字识别（OCR），可快速方便地将扫描纸质文档、PDF文件和数码相机的图像转换成可编辑、可搜索信息。ABBYY PDF Transformer

2017-09-01 10:45:12

ABBYY PDF Transformer+两步骤使用复杂文字语言

ABBYY PDF Transformer+让您可创建或转换希伯来语、意第绪语、日语、中文、泰语、韩语和阿拉伯语的文档。那么如何顺利使用这些复杂语言文字呢？小编教你两步骤轻松快速处理包含以下复杂语言

2017-10-16 10:17:05

ABBYY PDF Transformer+创建PDF文档的几种方式

Transformer+，您可：从纸质文档创建可搜索的PDF选择扫描设置，以获取最佳的文件大小和图像质量，并创建可搜索的PDF文件。附加的选项包括自动图像处理、MRC 压缩和多页扫描。从文件创建PDF用多种流行格式

2017-09-18 15:44:28

AD5423 nSYNC硬件上是否可以直接接GND，还是必须用IO口来控制？

1. nLDAC硬件上是否可以直接接GND ？ 2. nSYNC 硬件上是否可以直接接GND，还是必须用IO口来控制？ 3. 当有4片AD5423 的时候， 4片AD5423的nSYNC应该怎么处理，是否应该分开接不同的IO口，还是连在一起用一个IO口控制即可？

2023-12-05 07:25:07

Json Web Token是什么？有哪些应用呢

请求头里），并且在之后的请求里附带此token，服务器每次会解签名token，验证通过则返回资源。另外服务端要支持CORS跨来源资源共享）策略，服务器处理完请求之后，会再返回结果中加

2022-10-18 14:34:25

LV视觉处理是否有高斯滤波处理方法的模块（萌新发问）？

如题，是否有直接可以调用的函数，以及求某块区域中心类似的问题可以直接使用的函数？只看到均值滤波...是不是这一块要自己编写？

2017-12-03 11:53:35

LabVIEW Vision Assistant的图像处理，NI视觉助手教程免费阅读

点击学习>>《龙哥手把手教你学LabVIEW视觉设计》视频教程LabVIEW Vision Assistant的图像处理，NI视觉助手教程免费阅读非常好的一份教程，特别的详细，比英文版

2013-09-17 16:34:02

MAX6651如果只利用四路TACH用于监控风扇转速，FB和OUT是否可以不做处理，直接浮空？

请教一下，MAX6651如果只利用四路TACH用于监控风扇转速，FB和OUT是否可以不做处理，直接浮空？

2024-01-03 08:30:14

PDF Transformer+“调整亮度”警告消息解决办法

在扫描期间，如果亮度设置不正确，ABBYY PDF Transformer+将显示警告消息。用黑白模式扫描时，也可能需要调整亮度设置。下面小编给大家讲讲ABBYY PDF Transformer

2017-10-13 14:20:44

PSoC™是否可以处理PCM信号？

我看到PSoC™ 6 有 PDM -> PCM 转换器但我想知道PSoC™是否可以处理 PCM 信号如果是的话，它将使用哪些引脚

2024-03-04 07:55:31

PictureBox控件怎么转换labivew可以直接处理的图像？

附件是大华CCD的demo程序，通过.net控件读取图像，但是读取的图像在picturebox控件显示，没办法直接处理，我查了下picturebox的函数，没找到转换数组之类的节点属性，请问有什么方法可以转换成vison控件可以直接处理的格式？

2017-04-06 09:05:10

Spartan-3A或6部分可以直接驱动lan变压器吗？

嗨集团，我正在尝试使用Spartan-3A或6系列FPGA直接驱动lan变压器进行定制设计。Spartan-3A或6部分可以直接驱动lan变压器吗？我不关心信号电平匹配以太网标准与否，因为这是定制

2019-05-29 08:12:29

labview做视觉处理找圆

`如图所示，用labview做视觉处理，想找到圆圈中间8个圆的轮廓，哪位大神知道怎么弄？`

2019-03-22 09:31:50

你了解在单GPU上就可以运行的Transformer模型吗

最近，谷歌推出了Reformer架构，Transformer模型旨在有效地处理处理很长的时间序列的数据(例如，在语言处理多达100万个单词)。Reformer的执行只需要更少的内存消耗，并且即使在

2022-11-02 15:19:41

光学视觉对中系统

　　视觉对中系统是以现代光学为基础，运用数字图像处理、计算机通信和机器视觉系统为一体的现代视觉系统的综合运用。　　视觉对中系统可以检查元器件引脚以及测量引脚宽度、间距和数量，从而检测被贴元器件。这对

2018-09-03 11:06:41

如何更改ABBYY PDF Transformer+旋转页面

；自动旋转全部页面——让程序自动选择页面的方向，并在必要时进行纠正。此外，您还可以通过单击页面窗格项部的两个按钮之一对图像进行旋转。想要了解关于ABBYY PDF Transformer+基础教程的更多内容，点击进入ABBYY中文教程中心（abbyychina.com），查找您想要知道的内容。

2017-10-16 10:19:26

如何更改ABBYY PDF Transformer+界面语言

在安装ABBYY PDF Transformer+时会让您选择界面语言。此语言将用于所有消息、对话框、按钮和菜单项。在特殊情况下，您可能需要在安装完成后更改界面语言以适应需求，方法其实很简单，本文

2017-10-11 16:13:38

怎么实现基于SOPC的运动视觉处理系统的设计？

2021-06-04 06:33:28

机器视觉系统应用于标签外观视觉检查！

`机器视觉系统可以快速获取大量信息，而且易于自动处理，也易于同设计信息以及加工控制信息集成，因此，在现代自动化生产过程中，人们将机器视觉系统广泛地用于工况监视、成品检验和质量控制等领域。下面我们就来

2019-11-18 16:13:34

计算机视觉论文速览

AI视野·今日CS.CV 计算机视觉论文速览transformer、新模型、视觉语言模型、多模态、clip、视角合成

2021-08-31 08:46:46

详解ABBYY PDF Transformer+中的Bates编号

ABBYY PDF Transformer+ 可让您将 Bates 编号添加到 PDF 文档。Bates 编号可方便文档搜索和检索，并更加有利于电子归档。下面小编给小伙伴们讲讲ABBYY PDF

2017-11-14 10:28:31

详解ABBYY PDF Transformer+从多个文件创建PDF文档

ABBYY PDF Transformer+可以从多个文件创建PDF文档。您可以合并多种受支持格式的文件以及图像和纯图像PDF文档，还可从列表中的每个文件创建一个单独的PDF文档。下面小编就给大家讲

2017-10-18 10:14:10

详解ABBYY PDF Transformer+从文件创建PDF文档

文件与PDF/A 兼容(M)。如果您正从图像或纯图像PDF中创建PDF文档，请确保选择了必要的图像处理选项。4. 单击打开。ABBYY PDF Transformer+将从所选文件中创建一个PDF文档

2017-10-17 14:13:42

请问D26是否可以直接NC？

spec上D26连接enable，我用的是RGB VSYNC 模式，无enable pin，D26是否可以直接NC？

2019-06-17 09:08:16

关于区块链应用—Token的讨论

Token是区块链中的重要概念之一，在专业的“链圈”人看来，它更准确的翻译是“通证”，代表的是区块链上的一种权益证明，而非货币。

2018-07-06 16:08:00

585

为什么说Token是区块链经济的钥匙

破解了Token的含义，也就抓住了研究区块链经济的钥匙。现在对Token比较通行的理解是将其看做“可流通的权益证明凭证”，简称“通证”。这个定义虽然相对准确并逐渐受人认可，但领域外的人并不熟悉。而Token本身的存在机理仍存在极大争议。

2018-12-14 11:02:42

1153

什么是Token通证经济

Token又称通证，在网络威廉希尔官方网站中，Token原指令牌，代表的是一种权利或者说是权益证明，就像是：房产证，身份证，学历等等。如果要用一句话来定义这种经济模式，可以理解为：一种用激励机制来改变生产关系的价值驱动经济模型。

2019-06-04 09:51:44

2586

谷歌将AutoML应用于Transformer架构,翻译结果飙升!

为了探索AutoML在序列域中的应用是否能够取得的成功，谷歌的研究团队在进行基于进化的神经架构搜索（NAS）之后，使用了翻译作为一般的序列任务的代理，并找到了Evolved Transformer这一新的Transformer架构。

2019-06-16 11:29:22

2842

视觉新范式Transformer之ViT的成功

这是一篇来自谷歌大脑的paper。这篇paper的主要成果是用Transformer[1]取代CNN，并证明了CNN不是必需的，甚至在大规模数据集预训练的基础上在一些benchmarks做到

2021-02-24 09:31:23

6455

删掉Transformer中的这几层性能变好了？

基于Transformer结构的各类语言模型（Bert基于其encoder,Gpt-2基于其decoder）早已经在各类NLP任务上大放异彩，面对让人眼花缭乱的transformer堆叠方式，你是否

2021-03-08 10:27:06

3036

如何让Transformer在多种模态下处理不同领域的广泛应用？

的多模态领域的任务。例如，ViT专门用于视觉相关的任务，BERT专注于语言任务，而VILBERT-MT只用于相关的视觉和语言任务。一个自然产生的问题是：我们能否建立一个单一的Transformer，能够在多种模态下处理不同领域的广泛应用？最近，Facebook的一个人工智能研究团队进行了

2021-03-08 10:30:19

2380

Transformer模型的多模态学习应用

随着Transformer在视觉中的崛起，Transformer在多模态中应用也是合情合理的事情，甚至以后可能会有更多的类似的paper。

2021-03-25 09:29:59

9836

解析Transformer中的位置编码 -- ICLR 2021

引言 Transformer是近年来非常流行的处理序列到序列问题的架构，其self-attention机制允许了长距离的词直接联系，可以使模型更容易学习序列的长距离依赖。由于其优良的可并行性以及可观

2021-04-01 16:07:28

11918

详解一种简单而有效的Transformer提升威廉希尔官方网站

近些年，Transformer［1］逐渐成为了自然语言处理中的主流结构。为了进一步提升Transformer的性能，一些工作通过引入额外的结构或知识来提升Transformer在特定任务上的表现。

2021-04-09 09:50:57

5973

我们可以使用transformer来干什么？

：transformer是什么？transformer能干啥？为什么要用transformer？transformer能替代cnn吗？怎么让transformer运行快一点？以及各种个样的transformer

2021-04-22 10:49:38

11518

如何使用Transformer来做物体检测？

如果你只是想了解如何使用模型，可以直接跳到代码部分。结构 DETR模型由一个预训练的CNN骨干（如ResNet）组成，它产生一组低

2021-04-25 10:45:49

2296

时控开关是否可以直接接灯?

时控开关有手动开、关和定时自动开关两种控制方式，可以作为普通控制开关使用，亦可以作为自动定时开关使用。

2021-06-13 17:20:00

1919

使用跨界模型Transformer来做物体检测！

用了Transformer 架构开发的一个目标检测模型。在这篇文章中，我将通过分析DETR架构的内部工作方式来帮助提供一些关于它的直觉。下面，我将解释一些结构，但是如果你只是想了解如何使用模型，可以直接跳到代码部分

2021-06-10 16:04:39

1913

是否可以用AI视觉威廉希尔官方网站减少公司人力投入？

，对流水线进行不定时抽检，但抽检的形式无法覆盖所有生产单品，还会造成效率低下、人力浪费的情况，影响企业的生产效益。是否可以用AI视觉威廉希尔官方网站完成产品配件品控，减少公司人力投入？珠海华创智能是一家关注计算机软硬件

2021-06-17 10:39:44

1116

Inductor and Flyback Transformer Design .pdf

Inductor and Flyback Transformer Design .pdf(继电保护必须加电源开关吗)-Inductor and Flyback Transformer Design .pdf

2021-07-26 14:50:20

Transformer的复杂度和高效设计及Transformer的应用

有帮助。本文涉及25篇Transformer相关的文章，对原文感兴趣的读者可以关注公众号回复： ACL2021Transformers，下载本文所涉及的所有文章～本文主要内容：前言 ACL 2021

2021-09-01 09:27:43

5635

用于语言和视觉处理的高效 Transformer能在多种语言和视觉任务中带来优异效果

白皮书《Transformer-LS：用于语言和视觉处理的高效 Transformer》中提出了“长-短 Transformer” （Transformer-LS），这是一种高效的 Transformer 架构，用于为语言和视觉任务模拟中具有线性复杂度的长序列。

2021-12-28 10:42:18

1309

MCU内置的12位ADC 是否可以直接用于额温枪方案吗？

MCU内置的12位ADC是否可以直接用于额温枪方案？答案：可以的，而且完全能达到国家对红外温度计的相关标准要求。疫情期间，除口罩外，快速测温的额温枪也成为抢手货，各种优秀的额温枪方案不断出现。

2022-02-09 10:49:14

Transformer模型结构，训练过程

notebook的形式完成，本身就是直接可以运行的代码实现，总共有400行库代码，在4个GPU上每秒可以处理27,000个tokens。

2022-06-20 14:26:50

3155

基于卷积的框架有效实现及视觉Transformer背后的关键成分

来自清华大学和 Meta AI 的研究者证明了视觉 Transformer 的关键，即输入自适应、长程和高阶空间交互，也可以通过基于卷积的框架有效实现。

2022-09-09 15:44:25

879

Transformer常用的轻量化方法

引言：近年来，Transformer模型在人工智能的各个领域得到了广泛应用，成为了包括计算机视觉，自然语言处理以及多模态领域内的主流方法。

2022-10-25 14:10:41

4289

普通视觉Transformer（ViT）用于语义分割的能力

本文探讨了普通视觉Transformer（ViT）用于语义分割的能力，并提出了SegViT。以前基于ViT的分割网络通常从ViT的输出中学习像素级表示。不同的是，本文利用基本的组件注意力机制生成语义分割的Mask。

2022-10-31 09:57:41

3801

视觉Transformer在CV中的现状、趋势和未来方向

全面性和可读性：本文根据它们在三个基本CV任务（即分类、检测和分割）和数据流类型（即图像、点云、多流数据）上的应用，全面回顾了100多个视觉Transformer。论文选择了更具代表性的方法

2022-11-08 14:20:35

2123

加速ViT模型新思路！Meta推出Token Merging

更重要的是，token剪枝是动态的过程，需要根据不同的图像或句子确定token剪枝的不同数量。虽然这有利于提高准确性，但却不够实用实用性，因为这种情况下，数据不能再进行批处理。

2022-12-06 15:48:57

313

基于视觉transformer的高效时空特征学习算法

视觉Transofrmer通常将图像分割为不重叠的块(patch)，patch之间通过自注意力机制(Self-Attention)进行特征聚合，patch内部通过全连接层(FFN)进行特征映射。每个

2022-12-12 15:01:56

996

一种显著降低Transformer计算量的轻量化方法

然而，transformer的原始公式在输入令牌（token）数量方面具有二次计算复杂度。鉴于这个数字通常从图像分类的14^2到图像去噪的128^2 = 16K不等，内存和计算的这一限制严重限制了它的适用性。

2023-01-10 14:12:48

843

Transformer的兴起：提高实时视觉处理的准确度

2012 年，名为 AlexNet 的卷积神经网络（CNN）赢得了 ImageNet 大规模视觉识别挑战赛 (ILSVRC)，这是一项年度计算机视觉竞赛。任务是让您的机器学习并“分类”1000 个不同的图像（基于 ImageNet 数据集）。

2023-01-12 11:01:41

972

介绍一种基于Transformer的大语言模型

大模型的研究者和大公司出于不同的动机站位 LLM，研究者出于对 LLM 的突现能力 (emergent ability) 的好奇和对 LLM 对 NLP 领域能力边界的拓展、而大公司可能更多出自于商业利益考量；

2023-02-21 18:05:10

940

ChatGPT语言模型核心威廉希尔官方网站之Transformer

Transformer的主要优点是它可以并行地处理输入序列中的所有位置，因此在训练和推理时都有着很好的效率。此外，Transformer没有使用循环结构，因此它不会受长序列的影响，并且在处理长序列时不会出现梯度消失或爆炸的问题。

2023-03-08 15:36:00

494

关于Transformer的核心结构及原理

Thinking Like Transformers 这篇论文中提出了 transformer 类的计算框架，这个框架直接计算和模仿 Transformer 计算。使用 RASP 编程语言，使每个程序编译成一个特殊的 Transformer。

2023-03-08 09:39:00

488

正则化方法DropKey: 两行代码高效缓解视觉Transformer过拟合

美图影像研究院（MT Lab）与中国科学院大学在 CVPR 2023 上发表了一篇文章，提出一种新颖且即插即用的正则化器 DropKey，该正则化器可以有效缓解 Vision Transformer 中的过拟合问题。

2023-04-17 11:35:34

794

如何利用LLM做多模态任务？

大型语言模型LLM（Large Language Model）具有很强的通用知识理解以及较强的逻辑推理能力，但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力，但目前还未开放多模态输入接口并且不会透露任何模型上威廉希尔官方网站细节。因此，现阶段，如何利用LLM做一些多模态任务还是有一定的研究价值的。

2023-05-11 17:09:16

648

邱锡鹏团队提出具有内生跨模态能力的SpeechGPT，为多模态LLM指明方向

LLM 与通用人工智能（AGI）之间仍存在显著差距。首先，大多数当前 LLM 只能感知和理解多模态内容，而不能自然而然地生成多模态内容。其次，像图像和语音这样的连续信号不能直接适应接收离散 token 的 LLM。

2023-05-22 14:38:06

417

LLM性能的主要因素

目前主要的模型的参数 LLaMA系列是否需要扩中文词表不同任务的模型选择影响LLM性能的主要因素 Scaling Laws for Neural Language Models OpenAI的论文

2023-05-22 15:26:20

1148

如何利用LLM做多模态任务？

大型语言模型LLM（Large Language Model）具有很强的通用知识理解以及较强的逻辑推理能力，但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力，但目前还未开放多模态输入接口

2023-05-22 15:57:33

466

爱芯元智AX650N成端侧、边缘侧Transformer最佳落地平台

Transformer是当前各种大模型所采用的主要结构，而ChatGPT的火爆让人们逐渐意识到人工智能有着更高的上限，并可以在计算机视觉领域发挥出巨大潜能。相比于在云端用GPU部署Transformer大模型，在边缘侧、端侧部署Transformer最大的挑战则来自功耗

2023-05-30 11:04:02

615

Transformer在下一个token预测任务上的SGD训练动态

【导读】 AI理论再进一步，破解ChatGPT指日可待？ Transformer架构已经横扫了包括自然语言处理、计算机视觉、语音、多模态等多个领域，不过目前只是实验效果非常惊艳

2023-06-12 10:11:33

466

CVPR 2023 | 清华大学提出LiVT，用视觉Transformer学习长尾数据

Transformer 处理长尾分布数据的能力和特性，还有待进一步挖掘。目前，已有的长尾识别模型很少直接利用长尾数据对视觉 Transformer（ViT）进行训练。基于现成的预训练权重进行研究可能会导致不公平的比较结果，因此有必要对视觉 Transformer 在长尾数据下的表现进行系

2023-06-18 21:30:02

315

基于Transformer的大型语言模型（LLM）的内部机制

本文旨在更好地理解基于 Transformer 的大型语言模型（LLM）的内部机制，以提高它们的可靠性和可解释性。随着大型语言模型（LLM）在使用和部署方面的不断增加，打开黑箱并了解它们的内部

2023-06-25 15:08:49

991

我们能否扩展现有的预训练 LLM 的上下文窗口

在大家不断升级迭代自家大模型的时候，LLM（大语言模型）对上下文窗口的处理能力，也成为一个重要评估指标。比如 OpenAI 的 gpt-3.5-turbo 提供 16k token

2023-06-30 11:09:01

379

2D Transformer 可以帮助3D表示学习吗？

预训练的2D图像或语言Transformer：作为基础Transformer模型，具有丰富的特征表示能力。作者选择了先进的2D Transformer模型作为基础模型，例如Vision Transformers (ViTs) 或者语言模型（如BERT）。

2023-07-03 10:59:43

387

基于 Transformer 的分割与检测方法

来源：机器之心 SAM （Segment Anything ）作为一个视觉的分割基础模型，在短短的 3 个月时间吸引了很多研究者的关注和跟进。如果你想系统地了解 SAM 背后的威廉希尔官方网站，并跟上内卷的步伐

2023-07-05 10:18:39

463

MCU内置的12位ADC是否可以直接用于额温枪方案吗？

2023-08-17 16:43:59

457

最新综述！当大型语言模型（LLM）遇上知识图谱：两大威廉希尔官方网站优势互补

LLM 是黑箱模型，缺乏可解释性，因此备受批评。LLM 通过参数隐含地表示知识。因此，我们难以解释和验证 LLM 获得的知识。此外，LLM 是通过概率模型执行推理，而这是一个非决断性的过程。对于 LLM 用以得出预测结果和决策的具体模式和功能，人类难以直接获得详情和解释。

2023-07-10 11:35:00

1354

LLM对程序员的冲击和影响

LLM 对软件研发的单点提效，我之前录制过一段视频，大家可以直接观看，里面有详细的演示，我在这里就不再赘述了。

2023-07-24 15:39:06

766

RetNet架构和Transformer架构对比分析

微软研究院最近提出了一个新的 LLM 自回归基础架构 Retentive Networks （RetNet）[1,4]，该架构相对于 Transformer 架构的优势是同时具备:训练可并行、推理成本低和良好的性能，不可能三角。

2023-07-26 10:44:47

933

使用 Vision Transformer 和 NVIDIA TAO，提高视觉 AI 应用的准确性和鲁棒性

的 Transformer 架构应用于视觉数据的机器学习模型。相比基于 CNN 的同类模型具有一些优势，并能够并行处理大规模输入的数据。

2023-08-04 17:40:02

331

汽车领域拥抱Transformer需要多少AI算力？

Transformer在汽车领域应用自然是针对视觉的，ChatGPT3这种至少需要八张英伟达A100显卡的大模型是绝对无法出现在汽车上的。

2023-08-17 14:57:01

512

掌握基于Transformer的目标检测算法的3个难点

Transformer来源于自然语言处理领域，首先被应用于机器翻译。后来，大家发现它在计算机视觉领域效果也很不错，而且在各大排行榜上碾压CNN网络。

2023-08-22 14:52:21

413

Transformers是什么意思？人工智能transformer怎么翻译？

Transformers是什么意思？transformer怎么翻译？人工智能transformer怎么翻译？ Transformers是一个包含自然语言处理中的基础威廉希尔官方网站的深度神经网络。它可以将源语言

2023-08-22 15:59:24

1945

BEV人工智能transformer

BEV人工智能transformer 人工智能Transformer威廉希尔官方网站是一种自然语言处理领域的重要威廉希尔官方网站，广泛应用于自然语言理解、机器翻译、文本分类等任务中。它通过深度学习算法从大规模语料库中自动

2023-08-22 15:59:28

549

大模型基础Transformer结构的原理解析

该研究的结果适用于一般数据集，可以扩展到交叉注意力层，并且研究结论的实际有效性已经通过彻底的数值实验得到了验证。该研究建立一种新的研究视角，将多层 transformer 看作分离和选择最佳 token 的 SVM 层次结构。

2023-09-07 10:50:33

746

从原理到代码理解语言模型训练和推理，通俗易懂，快速修炼LLM

要理解大语言模型（LLM），首先要理解它的本质，无论预训练、微调还是在推理阶段，核心都是next token prediction，也就是以自回归的方式从左到右逐步生成文本。

2023-09-19 16:25:47

519

在线研讨会 | 利用生成式 AI 改变视觉 AI 应用

研讨会时间： 2023 年 11 月 3 日（周五）上午 11:00 （北京时间）生成式 AI、大语言模型（LLM）和视觉 Transformer 提供了前所未有的功能，世界各地的开发者们都在

2023-11-01 20:25:03

298

Long-Context下LLM模型架构全面介绍

随着ChatGPT的快速发展，基于Transformer的大型语言模型(LLM)为人工通用智能(AGI)铺平了一条革命性的道路，并已应用于知识库、人机界面和动态代理等不同领域。然而，存在一个普遍

2023-11-27 17:37:36

440

怎样使用Accelerate库在多GPU上进行LLM推理呢？

大型语言模型(llm)已经彻底改变了自然语言处理领域。随着这些模型在规模和复杂性上的增长，推理的计算需求也显著增加。

2023-12-01 10:24:52

396

用上这个工具包，大模型推理性能加速达40倍

作者：英特尔公司沈海豪、罗屿、孟恒宇、董波、林俊编者按：只需不到9行代码，就能在CPU上实现出色的LLM推理性能。英特尔 Extension for Transformer 创新

2023-12-01 20:40:03

552

如何利用OpenVINO加速LangChain中LLM任务

LangChain 是一个高层级的开源的框架，从字面意义理解，LangChain 可以被用来构建 “语言处理任务的链条”，它可以让AI开发人员把大型语言模型（LLM）的能力和外部数据结合起来，从而

2023-12-05 09:58:14

325

更深层的理解视觉Transformer，对视觉Transformer的剖析

最后是在ADE20K val上的LeaderBoard，通过榜单也可以看出，在榜单的前几名中，Transformer结构依旧占据是当前的主力军。

2023-12-07 09:39:15

357

一文详解LLM模型基本架构

LLM 中非常重要的一个概念是 Token，我们输入给 LLM 和它输出的都是 Token。Token 在这里可以看做语言的基本单位，中文一般是词或字（其实字也是词）。比如：”我们喜欢 Rust

2023-12-25 10:38:38

657

Transformer压缩部署的前沿威廉希尔官方网站：RPTQ与PB-LLM

随着人工智能威廉希尔官方网站的迅速发展，Transformer在自然语言处理、机器翻译、问答系统等领域取得了显著的性能提升。

2024-01-24 14:05:29

217

LLM推理加速新范式！推测解码（Speculative Decoding）最新综述

这个问题随着LLM规模的增大愈发严重。并且，如下左图所示，目前LLM常用的自回归解码（autoregressive decoding）在每个解码步只能生成一个token。这导致GPU计算资源利用率

2024-01-29 15:54:24

261

基于Transformer模型的压缩方法

基于Transformer架构的大型模型在人工智能领域中发挥着日益重要的作用，特别是在自然语言处理（NLP）和计算机视觉（CV）领域。

2024-02-22 16:27:19

211

已全部加载完成

搜索历史

LLM的Transformer是否可以直接处理视觉Token？

评论