关于深度学习模型Transformer模型的具体实现方案

今天给大家分享一篇关于深度学习模型Transformer的文章。我愿称之为讲解Transformer模型最好的文章。

文章内容主要介绍 Transformer 模型的具体实现：

Transformer整体架构

Transformer概览

引入张量

自注意力机制Self-Attention

多头注意力机制Mutil-Head Attention

位置反馈网络(Position-wise Feed-Forward Networks)

残差连接和层归一化（Add & Normalize）

位置编码（Positional Encoding）

解码器Decoder

掩码Mask：Padding Mask + Sequence Mask

最后的线性层和Softmax层

嵌入层和最终的线性层

正则化操作

博客地址：https://blog.csdn.net/benzhujie1245com/article/details/117173090

英文地址：http://jalammar.github.io/illustrated-transformer/

文章有点长，建议收藏

1、Transformer模型架构

2017 年，Google 在论文 Attentions is All you need（论文地址：https://arxiv.org/abs/1706.03762）中提出了 Transformer 模型，其使用 Self-Attention 结构取代了在 NLP 任务中常用的 RNN 网络结构。

相比 RNN 网络结构，其最大的优点是可以并行计算。Transformer 的整体模型架构如图所示：

Transformer模型架构

2、Transformer 概览

首先，让我们先将 Transformer 模型视为一个黑盒，如图所示。在机器翻译任务中，将一种语言的一个句子作为输入，然后将其翻译成另一种语言的一个句子作为输出：

Transformer 模型（黑盒模式）

2.1 Encoder-Decoder

Transformer 本质上是一个 Encoder-Decoder 架构。因此中间部分的 Transformer 可以分为两个部分：编码组件和解码组件

Transformer 模型（Encoder-Decoder 架构模式）

其中，编码组件由多层编码器（Encoder）组成（在论文中作者使用了 6 层编码器，在实际使用过程中你可以尝试其他层数）。解码组件也是由相同层数的解码器（Decoder）组成（在论文也使用了 6 层）。

编码器/解码器组成

每个编码器由两个子层组成：

Self-Attention层（自注意力层）

Position-wise Feed Forward Network（前馈网络，缩写为 FFN）

如下图所示：每个编码器的结构都是相同的，但是它们使用不同的权重参数（6个编码器的架构相同，但是参数不同）

Encoder编码器组成

编码器的输入会先流入 Self-Attention 层。它可以让编码器在对特定词进行编码时使用输入句子中的其他词的信息（可以理解为：当我们翻译一个词时，不仅只关注当前的词，而且还会关注其他词的信息）。

注：关注词语的上下文环境，不仅仅是词语本身

后面我们将会详细介绍 Self-Attention 的内部结构。然后，Self-Attention 层的输出会流入前馈网络。

解码器也有编码器中这两层，但是它们之间还有一个注意力层（即 Encoder-Decoder Attention），其用来帮忙解码器关注输入句子的相关部分（类似于 seq2seq 模型中的注意力）

编码器：self-attention层 + 前馈网络FFN（Position-wise Feed Forward Network）

解码器：self-attention层 + Encoder-Decoder Attention + 前馈网络FFN（Position-wise Feed Forward Network）

3、引入张量

现在我们已经了解了模型的主要组成部分，让我们开始研究各种向量/张量，以及他们在这些组成部分之间是如何流动的，从而将输入经过已训练的模型转换为输出。

3.1 引入词嵌入Embedding

和通常的 NLP 任务一样，首先，我们使用词嵌入算法（Embedding） 将每个词转换为一个词向量。

在 Transformer 论文中，词嵌入向量的维度是 512。

每个词被嵌入到大小为 512 的向量中。我们将用这些简单的框代表这些向量。

词嵌入仅发生在最底层的编码器中。所有编码器都会接收到一个大小为 512 的向量列表：

底部编码器接收的是词嵌入向量

其他编码器接收的是上一个编码器的输出。

这个列表大小是我们可以设置的超参数——基本上这个参数就是训练数据集中最长句子的长度。

3.2 词嵌入后编码

对输入序列完成嵌入操作后，每个词都会流经编码器的两层。

词嵌入与编码

接下来，我们将换一个更短的句子作为示例，来说明在编码器的每个子层中发生了什么。

上面我们提到，编码器会接收一个向量作为输入。编码器首先将这些向量传递到 Self-Attention 层，然后传递到前馈网络，最后将输出传递到下一个编码器。

编码器揭秘

4、Self-Attention（自注意力）

4.1 Self-Attention概览

首先我们通过一个例子，来对 Self-Attention 有一个直观的认识。假如我们要翻译下面这个句子：

The animal didn’t cross the street because it was too tired

这个句子中的 it 指的是什么？是指 animal 还是 street ？对人来说，这是一个简单的问题，但是算法来说却不那么简单。

当模型在处理 it 时，Self-Attention 机制使其能够将 it 和 animal 关联起来。

当模型处理每个词（输入序列中的每个位置）时，Self-Attention 机制使得模型不仅能够关注当前位置的词，而且能够关注句子中其他位置的词，从而可以更好地编码这个词。

如果你熟悉循环神经网络 RNN，想想如何维护隐状态，使 RNN 将已处理的先前词/向量的表示与当前正在处理的词/向量进行合并。Transformer 使用 Self-Attention 机制将其他词的理解融入到当前词中。

图注：当我们在编码器 #5（堆栈中的顶部编码器）中对单词it进行编码时，有一部分注意力集中在The animal上，并将它们的部分信息融入到it的编码中。

4.2 Self-Attention机制

下面我们来看一下Self-Attention的具体机制。其基本结构如图所示：

Scaled Dot-Product Attention（缩放点积注意力）

对于 Self Attention 来讲，Q（Query），K（Key）和 V（Value） 三个矩阵均来自同一输入，并按照以下步骤计算：

首先计算 Q 和 K 之间的点积，为了防止其结果过大，会除以；其中为 Key 向量的维度。

然后利用Softmax操作将其结果归一化为概率分布，再乘以矩阵 V 就得到权重求和的表示。

整个计算过程可以表示为：

为了更好的理解 Self-Attention，下面我们通过具体的例子进行详细说明。

4.3 Self-Attention详解

下面通过一个例子，让我们看一下如何使用向量计算 Self-Attention。计算Self-Attention的步骤如下：

第 1 步：对编码器的每个输入向量（在本例中，即每个词的词向量）创建三个向量：

Query 向量

Key 向量

Value 向量

它们是通过词向量分别和3个矩阵相乘得到的，这3个矩阵通过训练获得。

请注意，这些向量的维数小于词向量的维数。新向量的维数为 64，而 embedding 和编码器输入/输出向量的维数为 512。

新向量不一定非要更小，这是为了使多头注意力计算保持一致的结构性选择。

上图中，乘以权重矩阵得到，即与该单词关联的Query向量。

最终会为输入句子中的每个词创建一个 Query，一个 Key 和一个 Value 向量

什么是 Query，Key 和 Value 向量？它们是一种抽象，对于注意力的计算和思考非常有用。继续阅读下面的注意力计算过程，你将了解这些向量所扮演的角色。

第 2 步：计算注意力分数。

假设我们正在计算这个例子中第一个词 Thinking 的自注意力。我们需要根据 Thinking 这个词，对句子中的每个词都计算一个分数。这些分数决定了我们在编码 Thinking 这个词时，需要对句子中其他位置的每个词放置多少的注意力。

这些分数，是通过计算 Thinking 的 Query 向量和需要评分的词的Key向量的点积得到的。如果我们计算句子中第一个位置词的注意力分数，则第一个分数是和的乘=点积，第二个分数是和的点积。

第 3 步：将每个分数除以；其中为 Key 向量的维度。

目的是在反向传播时，求梯度更加稳定。实际上，你也可以除以其他数。

第 4 步：将这些分数进行 Softmax 操作。Softmax 将分数进行归一化处理，使得它们都为正数并且和为1。

Softmax操作

这些 Softmax 分数决定了在编码当前位置的词时，对所有位置的词分别有多少的注意力。很明显，当前位置的词汇有最高的分数，但有时注意一下与当前位置的词相关的词是很有用的。

第 5 步：将每个 Softmax 分数分别与每个 Value 向量相乘。

这种做法背后的直觉理解是：对于分数高的位置，相乘后的值就越大，我们把更多的注意力放在它们身上；对于分数低的位置，相乘后的值就越小，这些位置的词可能是相关性不大，我们就可以忽略这些位置的词。

越大越重视

第 6 步：将加权 Value 向量（即上一步求得的向量）求和。这样就得到了自注意力层在这个位置的输出。

self-attention完整过程

这样就完成了自注意力的计算。生成的向量会输入到前馈网络中。但是在实际实现中，此计算是以矩阵形式进行，以便实现更快的处理速度。下面我们来看看如何使用矩阵计算。

4.4 使用矩阵计算 Self-Attention

第一步：计算Query、Key和Value矩阵。

首先将所有词向量放到一个矩阵X中，然后分别和3个我们训练过的权重矩阵（）相乘，即得到矩阵。

计算QKV矩阵

矩阵 X 中的每一行，表示输入句子中的每一个词的词向量（长度为 512，在图中为 4 个方框）

矩阵Q、K和V 中的每一行，分别表示Query向量，Key向量和Value 向量（它们的长度都为64，在图中为3个方框）。

第2步：计算自注意力。由于这里使用了矩阵进行计算，可以将前面的第 2 步到第 6 步压缩为一步。

矩阵形式的自注意力计算

5、多头注意力机制（Multi-head Attention）

5.1 多头注意力机制架构

在Transformer论文中，通过添加一种多头注意力机制，进一步完善了自注意力层。具体做法：

首先，通过个不同的线性变换对Query、Key 和 Value 进行映射；

然后，将不同的 Attention 拼接起来；

最后，再进行一次线性变换。

基本结构如图所示：

每一组注意力用于将输入映射到不同的子表示空间，这使得模型可以在不同子表示空间中关注不同的位置。整个计算过程可表示为：

其中：、、和

在论文中，指定h=8，也就是使用8个注意力头，和。

在多头注意力下，我们为每组注意力单独维护不同的Query、Key 和 Value 权重矩阵，从而得到不同的 Query、Key和Value 矩阵。

如前所述，我们将乘以矩阵，得到Query、Key和Value矩阵。

按照上面的方法，使用不同的权重矩阵进行 8 次自注意力计算，就可以得到 8 个不同的矩阵。

接下来就有点麻烦了。因为前馈神经网络层接收的是 1 个矩阵（每个词的词向量），而不是上面的 8 个矩阵。因此，我们需要一种方法将这 8 个矩阵整合为一个矩阵。具体方法如下：

把8个矩阵拼接起来

把拼接后的矩阵和另一个权重矩阵相乘

得到最终的矩阵，这个矩阵包含了所有注意力头的信息，这个矩阵会输入到FFN层。

5.2 Multi-head Attention总结

这差不多就是多头注意力的全部内容了。下面将所有内容放到一张图中，以便我们可以统一查看：

现在让我们重新回顾一下前面的例子，看看在对示例句中的“it”进行编码时，不同的注意力头关注的位置分别在哪：

当我们对it进行编码时，一个注意力头关注The animal，另一个注意力头关注tired。从某种意义上来说，模型对it的表示，融入了animal和tired的部分表达。

Multi-head Attention 的本质是：在参数总量保持不变的情况下，将同样的Query，Key，Value 映射到原来的高维空间的不同子空间中进行Attention的计算，在最后一步再合并不同子空间中的Attention信息。

这样降低了计算每个 head 的 Attention 时每个向量的维度，在某种意义上防止了过拟合。

由于 Attention 在不同子空间中有不同的分布，Multi-head Attention 实际上是寻找了序列之间不同角度的关联关系，并在最后拼接这一步骤中，将不同子空间中捕获到的关联关系再综合起来。

6、位置前馈网络（Position-wise Feed-Forward Networks）

位置前馈网络就是一个全连接前馈网络，每个位置的词都单独经过这个完全相同的前馈神经网络。

其由两个线性变换组成，即两个全连接层组成，第一个全连接层的激活函数为 ReLU 激活函数。可以表示为：

在每个编码器和解码器中，虽然这个全连接前馈网络结构相同，但是不共享参数。整个前馈网络的输入和输出维度都是，第一个全连接层的输出和第二个全连接层的输入维度为

7、残差连接和层归一化

编码器结构中有一个需要注意的细节：每个编码器的每个子层（Self-Attention 层和 FFN 层）都有一个残差连接，再执行一个层标准化操作，整个计算过程可以表示为：

将向量和自注意力层的层标准化操作可视化，如下图所示：

上面的操作也适用于解码器的子层。假设一个 Transformer 是由 2 层编码器和 2 层解码器组成，其如下图所示：

为了方便进行残差连接，编码器和解码器中的所有子层和嵌入层的输出维度需要保持一致，在 Transformer 论文中

8、位置编码

到目前为止，我们所描述的模型中缺少一个东西：表示序列中词顺序的方法。为了解决这个问题，Transformer 模型为每个输入的词嵌入向量添加一个向量。

这些向量遵循模型学习的特定模式，有助于模型确定每个词的位置，或序列中不同词之间的距离。

如果我们假设词嵌入向量的维度是 4，那么实际的位置编码如下：

那么位置编码向量到底遵循什么模式？其具体的数学公式如下：

其中表示位置，表示维度。上面的函数使得模型可以学习到之间的相对位置关系：任意位置的都可以被的线性函数表示：

在下图中，我们将这些值进行可视化。每一行对应一个向量的位置编码。所以第一行对应于输入序列中第一个词的位置编码。每一行包含 64 个值，每个值的范围在 -1 和 1 之间

需要注意的是，官方提供的示例代码（TensorFlow 1.x 版本中的 get_timing_signal_1d() 函数和 TensorFlow 2.x 版本中的 call() 函数）与 Transformer 论文中的方法稍微存在一定差异：

Transformer 论文中，sine 函数和 cosine 函数产生的值交织在一起；

而官方提供的代码中，左半部分的值全是由 sine 函数产生的，右半部分的值全是由 cosine 函数产生的，然后将它们拼接起来。

官方代码生成的位置编码值的可视化图如下：

这不是唯一一种生成位置编码的方法。但这种方法的优点是：可以扩展到未知的序列长度。例如，当我们训练后的模型被要求翻译一个句子，而这个句子的长度大于训练集中所有句子的长度。

9、解码器Decoder

现在我们已经介绍了编码器的大部分概念，我们也了解了解码器的组件的原理。现在让我们看下编码器和解码器是如何协同工作的。

通过上面的介绍，我们已经了解第一个编码器的输入是一个序列，最后一个编码器的输出是一组注意力向量 Key 和 Value。这些向量将在每个解码器的 Encoder-Decoder Attention 层被使用，这有助于解码器把注意力集中在输入序列的合适位置。

在完成了编码阶段后，我们开始解码阶段。解码阶段的每个时间步都输出一个元素。

接下来会重复这个过程，直到输出一个结束符，表示 Transformer 解码器已完成其输出。每一步的输出都会在下一个时间步输入到下面的第一个解码器，解码器像编码器一样将解码结果显示出来。就像我们处理编码器输入一样，我们也为解码器的输入加上位置编码，来指示每个词的位置。

Encoder-Decoder Attention 层的工作原理和多头自注意力机制类似。不同之处是：Encoder-Decoder Attention 层使用前一层的输出构造 Query 矩阵，而 Key 和 Value 矩阵来自于编码器栈的输出。

10、掩码Mask

Mask 表示掩码，它对某些值进行掩盖，使其在参数更新时不产生效果。Transformer 模型里面涉及两种 mask，分别是 Padding Mask 和 Sequence Mask。

Padding Mask 在所有的 scaled dot-product attention 里面都需要用到

而Sequence Mask 只有在解码器 Decoder 的 Self-Attention 里面用到。

10.1 Padding Mask

什么是 Padding mask 呢？因为每个批次输入序列的长度是不一样的，所以我们要对输入序列进行对齐。

具体来说：就是在较短的序列后面填充 0（但是如果输入的序列太长，则是截断，把多余的直接舍弃）。因为这些填充的位置，其实是没有什么意义的，所以我们的 Attention 机制不应该把注意力放在这些位置上，所以我们需要进行一些处理。

具体的做法：把这些位置的值加上一个非常大的负数（负无穷），这样的话，经过Softmax 后，这些位置的概率就会接近0。

10.2 Sequence Mask

Sequence Mask是为了使得 Decoder 不能看见未来的信息。也就是对于一个序列，在时刻，我们的解码输出应该只能依赖于时刻之前的输出，而不能依赖之后的输出。因为我们需要想一个办法，把之后的信息给隐藏起来。

具体的做法：产生一个上三角矩阵，上三角的值全为0。把这个矩阵作用在每个序列上，就可以达到我们的目的。

总结：对于Decoder的Self-Attention，里面使用到的scaled dot-product attention，同时需要Padding Mask 和Sequence Mask，具体实现就是两个Mask相加。其他情况下，只需要Padding Mask。

11、最后的线性层和 Softmax 层

解码器栈的输出是一个 float向量。我们怎么把这个向量转换为一个词呢？通过一个线性层再加上一个Softmax层实现。

11.1 线性层

线性层是一个简单的全连接神经网络，其将解码器栈的输出向量映射到一个更长的向量，这个向量被称为logits向量。

11.2 Softmax层

现在假设我们的模型有 10000 个英文单词（模型的输出词汇表）。因此 logits 向量有 10000 个数字，每个数表示一个单词的分数。

然后，Softmax 层会把这些分数转换为概率（把所有的分数转换为正数，并且加起来等于 1）。最后选择最高概率所对应的单词，作为这个时间步的输出。

12、嵌入层和最后的线性层

在 Transformer 论文，提到一个细节：编码组件和解码组件中的嵌入层，以及最后的线性层共享权重矩阵。

需要注意的是：在嵌入层中，会将这个共享权重矩阵乘以

13、正则化操作

为了提高 Transformer 模型的性能，在训练过程中，使用了以下的正则化操作：

Dropout。对编码器和解码器的每个子层的输出使用Dropout 操作，是在进行残差连接和层归一化之前。词嵌入向量和位置编码向量执行相加操作后，执行Dropout操作。Transformer 论文中提供的参数

Label Smoothing(标签平滑)。Transformer论文中提供的参数是。

编辑：黄飞

阅读全文

解码器(40056) 解码器(40056)
编码器(131226) 编码器(131226)
深度学习(119798) 深度学习(119798)
Transformer(5892) Transformer(5892)
rnn(6792) rnn(6792)

为什么transformer性能这么好？Transformer的上下文学习能力是哪来的？

为什么 transformer 性能这么好？它给众多大语言模型带来的上下文学习 (In-Context Learning) 能力是从何而来？在人工智能领域里，transformer 已成为深度学习

2023-09-25 12:05:37

736

如何才能高效地进行深度学习模型训练？

分布式深度学习框架中，包括数据/模型切分、本地单机优化算法训练、通信机制、和数据/模型聚合等模块。现有的算法一般采用随机置乱切分的数据分配方式，随机优化算法（例如随机梯度法）的本地训练算法，同步或者异步通信机制，以及参数平均的模型聚合方式。

2018-07-09 08:48:22

13609

新一代人工智能新课题：神经网络的深度解析

基于神经网络中层信息量指标，分析不同神经网络模型的处理能力。我们分析比较了四种在 NLP 中常用的深度学习模型，即 BERT， Transformer， LSTM，和 CNN。在各 NLP 任务中，BERT 模型往往表现最好，Transformer 模型次之。

2020-09-11 16:56:24

1160

如何计算transformer模型的参数量

基于transformer模型的，模型结构主要有两大类：encoder-decoder（代表模型是T5）和decoder-only，具体的，decoder-only结

2023-07-10 09:13:57

5737

机器学习模型评估指标

机器学习模型指标在机器学习建模过程中，针对不同的问题，需采用不同的模型评估指标。

2023-09-06 12:51:50

410

一文详解Transformer神经网络模型

Transformer模型在强化学习领域的应用主要是应用于策略学习和值函数近似。强化学习是指让机器在与环境互动的过程中，通过试错来学习最优的行为策略。

2024-02-20 09:55:35

352

大语言模型背后的Transformer，与CNN和RNN有何不同

电子发烧友网报道（文/李弯弯）近年来，随着大语言模型的不断出圈，Transformer这一概念也走进了大众视野。Transformer是一种非常流行的深度学习模型，最早于2017年由谷歌

2023-12-25 08:36:00

1282

深度学习模型是如何创建的？

具有深度学习模型的嵌入式系统应用程序带来了巨大的好处。深度学习嵌入式系统已经改变了各个行业的企业和组织。深度学习模型可以帮助实现工业流程自动化，进行实时分析以做出决策，甚至可以预测预警。这些AI

2021-10-27 06:34:15

深度学习中过拟合/欠拟合的问题及解决方案

的数据可以对未来的数据进行推测与模拟，因此都是使用历史数据建立模型，即使用已经产生的数据去训练，然后使用该模型去拟合未来的数据。在我们机器学习和深度学习的训练过程中，经常会出现过拟合和欠拟合的现象。训练一开始，模型通常会欠拟合，所以会对模型进行优化，然而等到训练到一定程度的时候，就需要解决过拟合的问题了。

2021-01-28 06:57:47

深度学习存在哪些问题？

深度学习常用模型有哪些？深度学习常用软件工具及平台有哪些？深度学习存在哪些问题？

2021-10-14 08:20:47

深度学习威廉希尔官方网站的开发与应用

时间安排大纲具体内容实操案例三天关键点1.强化学习的发展历程2.马尔可夫决策过程3.动态规划4.无模型预测学习5.无模型控制学习6.价值函数逼近7.策略梯度方法8.深度强化学习-DQN算法系列9.

2022-04-21 14:57:39

深度融合模型的特点

深度融合模型的特点，背景深度学习模型在训练完成之后，部署并应用在生产环境的这一步至关重要，毕竟训练出来的模型不能只接受一些公开数据集和榜单的检验，还需要在真正的业务场景下创造价值，不能只是为了PR而

2021-07-16 06:08:20

Mali GPU支持tensorflow或者caffe等深度学习模型吗

Mali GPU 支持tensorflow或者caffe等深度学习模型吗？好像caffe2go和tensorflow lit可以部署到ARM，但不知道是否支持在GPU运行？我希望把训练

2022-09-16 14:13:01

TDA4对深度学习的重要性

，这比较类似于人脑的运行方式，获得更多数据后，准确度也会越来越高。TIDL（TI Deep LearningLibrary）是TI平台基于深度学习算法的软件生态系统，可以将一些常见的深度学习算法模型

2022-11-03 06:53:11

ad中电流互感器选择哪个模型

在画路时，需要用到电流互感器，需要选择哪个模型呢？一下这些transformer 分别是什么意思？那些在我们设计电路时候比较常用？一些变压器的表述中“Transformer (Coupled Inductor Model)”的耦合电感模型是什么意思？

2014-12-01 16:32:10

labview+yolov4+tensorflow+openvion深度学习

/1XavCXSIOYaukCzER7eZQ3g提取码：[hide] 3icg [/hide]随着机器学习，深度学习的发展，很多人眼很难去直接量化的特征，深度学习可以搞定，这就是深度学习带给我们的优点和前所未有的吸引力。很多特征

2021-05-10 22:33:46

labview实现深度学习，还在用python？

如何使用labview实现深度学习应用。ok样本ng样本这些图片的特征是：ok与ok，ng与ng之间都有差异，传统的方法要实现，就需要复杂的算法编程实现，如果用深度学习，则非常简单。1.准备好样本库

2020-07-23 20:33:10

labview测试tensorflow深度学习SSD模型识别物体

安装labview2019 vision，自带深度学习推理工具，支持tensorflow模型。配置好python下tensorflow环境配置好object_detection API下载SSD模型

2020-08-16 17:21:38

labview调用深度学习tensorflow模型非常简单，附上源码和模型

本帖最后由 wcl86 于 2021-9-9 10:39 编辑 `labview调用深度学习tensorflow模型非常简单，效果如下，附上源码和训练过的模型：[hide][/hide

2021-06-03 16:38:25

matlab的模型变换、模型简化、模型实现以及模型特性命令

matlab的模型变换、模型简化、模型实现以及模型特性命令模型变换 C2d 变连续系统为离散系统 C2dm 利用指定方法变连续为离散系统 C2dt 带一延时变连续为离散系统 D2c 变离散为连续系统

2009-09-22 15:58:13

　　华为云深度学习服务，让企业智能从此不求人

主要基于人工实现，耗时费力。现在企业人员基于华为的深度学习服务，自行加载标注好的环境健康安全检查项目标注图片，就可以很快生成EHS图片检测模型，后续企业进行EHS检查时，只需要拍摄现场照片，输入模型

2018-08-02 20:44:09

【NanoPi K1 Plus试用体验】搭建深度学习框架

，使其更紧凑和更易debug，并提供了扩展的便利性。课程内容基本上是以代码编程为主，也会有少量的深度学习理论内容。课程会一步一步从Keras环境安装开始讲解，并从最基础的Keras实现线性回归

2018-07-17 11:40:31

【详解】FPGA：深度学习的未来？

（FPGA）提供了另一个值得探究的解决方案。日渐流行的FPGA设计工具使其对深度学习领域经常使用的上层软件兼容性更强，使得FPGA更容易为模型搭建和部署者所用。FPGA架构灵活，使得研究者能够在诸如GPU

2018-08-13 09:33:30

什么是深度学习？使用FPGA进行深度学习的好处？

什么是深度学习为了解释深度学习，有必要了解神经网络。神经网络是一种模拟人脑的神经元和神经网络的计算模型。作为具体示例，让我们考虑一个输入图像并识别图像中对象类别的示例。这个例子对应机器学习中的分类

2023-02-17 16:56:59

你了解在单GPU上就可以运行的Transformer模型吗

的邻居：在深度学习中，注意力是一种机制，它使网络能够根据上下文的不同部分与当前时间步长之间的相关性，将注意力集中在上下文的不同部分。transformer模型中存在三种注意机制：图3：在

2022-11-02 15:19:41

使用全卷积网络模型实现图像分割

OpenCv-C++-深度神经网络（DNN）模块-使用FCN模型实现图像分割

2019-05-28 07:33:35

全网唯一一套labview深度学习教程：tensorflow+目标检测：龙哥教你学视觉—LabVIEW深度学习教程

，基于深度学习的缺陷检测已经应用于金属固件、布匹丝织物、建筑裂纹、钢筋裂纹等多个领域，并取得了不错的成果。下面将结合具体案例介绍其实现方法。3.1裂纹缺陷检测[1]建筑材料（如磁瓦等）的外观变化（如

2020-08-10 10:38:12

动态分配多任务资源的移动端深度学习框架

需求和准确率之间的权衡是固定的。因此，第一大挑战在于设计一个能让深度学习模型提供灵活的资源-准确率权衡的方案。一种朴素的方法是在移动系统中安装所有具备可能资源-准确率权衡的模型变体。然而，由于这些模型

2018-10-31 16:32:24

卷积神经网络模型发展及应用

卷积神经网络模型发展及应用转载****地址：http://fcst.ceaj.org/CN/abstract/abstract2521.shtml深度学习是机器学习和人工智能研究的最新趋势，作为一个

2022-08-02 10:39:39

如何实现嵌入式平台与深度学习的智能气象监测仪器的设计

基于嵌入式平台与深度学习的智能气象监测仪器设计方案一、概述二、整体框架三、人工智能部分：四、嵌入式部分4.1安卓主控4.2协处理器五、人机交互一、概述以目前常见移动设备的存储和计算能力，是不可能实现

2021-11-09 09:14:46

如何使用MATLAB帮助相关人员执行深度学习任务

MATLAB支持的模型有哪些呢？如何使用MATLAB帮助相关人员执行深度学习任务呢？

2021-11-22 07:48:19

探索一种降低ViT模型训练成本的方法

（1 GPU）和时间（24小时）资源下从头开始训练ViT模型。首先，提出了一种向ViT架构添加局部性的有效方法。其次，开发了一种新的图像大小课程学习策略，该策略允许在训练开始时减少从每个图像中提

2022-11-24 14:56:31

机器学习简介与经典机器学习算法人才培养

神经网络训练方法卷积神经网络介绍经典网络结构介绍章节目标：深入了解神经网络的组成、训练和实现，掌握深度空间特征分布等关键概念，为深度迁移学习奠定知识基础三、迁移学习基础迁移学习绪论基于样本的迁移学习

2022-04-28 18:56:07

迁移学习

2022-04-21 15:15:11

部署基于嵌入的机器学习模型

1、如何在生产中部署基于嵌入的机器学习模型　　由于最近大量的研究，机器学习模型的性能在过去几年里有了显著的提高。虽然这些改进的模型开辟了新的可能性，但是它们只有在可以部署到生产应用中时才开始提供真正

2022-11-02 15:09:52

基于模型的动态测试工具TPT

嵌入式系统的基于模型的动态测试工具，支持众多业内主流的工具平台和测试环境，可应用于整个嵌入式软件开发周期，实现各种异构环境下的自动化测试。无论是在测试建模，测试环境

2022-07-25 15:35:26

深度学习与大模型Transformer

人工智能

恬静简朴1发布于 2023-07-18 16:57:22

大模型Transformer工作原理

大模型

恬静简朴1发布于 2023-07-18 17:14:58

深度学习算法联合综述

关于深度学习神经网络算法的介绍，包含有对几种神经网络模型的详细描述

2017-07-10 16:49:12

基于深度学习的多尺幅深度网络监督模型

针对场景标注中如何产生良好的内部视觉信息表达和有效利用上下文语义信息两个至关重要的问题，提出一种基于深度学习的多尺度深度网络监督模型。与传统多尺度方法不同，模型主要由两个深度卷积网络组成：首先网络

2017-11-28 14:22:10

人工智能--深度学习模型

我们知道机器学习模型有：生成模型（GenerativeModel）和判别模型（Discriminative Model）。判别模型需要输入变量x，通过某种模型来预测p（y｜x）。生成模型是给定某种隐含信息，来随机产生观测数据。

2018-06-29 18:37:00

5523

随机块模型学习算法

的一个主要挑战．提出一种精细随机块模型及其快速学习算法，该学习方法基于提出的模型与最小消息长度推导出一个新成本函数，利用期望最大化参数估计方法，实现了边评价模型边估计参数的并行学习策略。以此方式显著降低随机块模

2018-01-09 18:20:04

模型驱动深度学习的标准流程与学习方法解析

模型驱动的深度学习方法近年来，深度学习在人工智能领域一系列困难问题上取得了突破性成功应用。

2018-01-24 11:30:13

4608

学习模型指导驾驶过程分为五步

与人类用双眼去观察路面、用手去操控方向盘类似，无人车用一排摄像机去感知环境，用深度学习模型指导驾驶。大体来说，这个过程分为五步:记录环境数据分析并处理数据构建理解环境的模型训练模型精炼出可以随时

2018-04-26 22:01:00

757

一种新的目标分类特征深度学习模型

为提高低配置计算环境中的视觉目标实时在线分类特征提取的时效性和分类准确率，提出一种新的目标分类特征深度学习模型。根据高时效性要求，选用分类器模型离线深度学习的策略，以节约在线训练时间。针对网络深度

2018-03-20 17:30:42

根据美团“猜你喜欢”来深度学习排序模型实践

本文将主要介绍深度学习模型在美团平台推荐排序场景下的应用和探索。

2018-04-02 09:35:24

6070

关于如何从零开始构建深度学习项目的详细教程

第一部分：启动一个深度学习项目第二部分：创建一个深度学习数据集第三部分：设计深度模型第四部分：可视化深度网络模型及度量指标第五部分：深度学习网络中的调试第六部分：改善深度学习模型性能及网络调参

2018-04-19 15:21:23

3520

基于深度学习模型的点云目标检测及ROS实现

近年来，随着深度学习在图像视觉领域的发展，一类基于单纯的深度学习模型的点云目标检测方法被提出和应用，本文将详细介绍其中一种模型——SqueezeSeg，并且使用ROS实现该模型的实时目标检测。

2018-11-05 16:47:29

17181

针对线性回归模型和深度学习模型，介绍了确定训练数据集规模的方法

具体来看，对于传统的机器学习算法，模型的表现先是遵循幂定律（power law），之后趋于平缓；而对于深度学习，该问题还在持续不断地研究中，不过图一为目前较为一致的结论，即随着数据规模的增长，深度

2019-05-05 11:03:31

5747

深度学习模型压缩与加速综述

目前在深度学习领域分类两个派别，一派为学院派，研究强大、复杂的模型网络和实验方法，为了追求更高的性能；另一派为工程派，旨在将算法更稳定、高效的落地在硬件平台上，效率是其追求的目标。复杂的模型固然具有

2019-06-08 17:26:00

4836

回顾3年来的所有主流深度学习CTR模型

微软于2016年提出的Deep Crossing可以说是深度学习CTR模型的最典型和基础性的模型。如图2的模型结构图所示，它涵盖了深度CTR模型最典型的要素，即通过加入embedding层将稀疏特征转化为低维稠密特征，用stacking layer

2019-07-18 14:33:16

5870

深度学习模型小型化处理的五种方法

现在深度学习模型开始走向应用，因此我们需要把深度学习网络和模型部署到一些硬件上，而现有一些模型的参数量由于过大，会导致在一些硬件上的运行速度很慢，所以我们需要对深度学习模型进行小型化处理。

2020-01-28 17:40:00

3658

晶心科技和Deeplite携手合作高度优化深度学习模型解决方案

晶心科技今日宣布将携手合作，在基于AndeStar™ V5架构的晶心RISC-V CPU核心上配置高度优化的深度学习模型，使AI深度学习模型变得更轻巧、快速和节能。

2019-12-31 16:30:11

1002

机器学习模型在生产中退化的原因

由于意外的机器学习模型退化导致了几个机器学习项目的失败，我想分享一下我在机器学习模型退化方面的经验。实际上，有很多关于模型创建和开发阶段的宣传，而不是模型维护。

2020-05-04 12:11:00

1615

如何使用深度学习实现语音声学模型的研究

的分析识别更是研究的重中之重。近年来深 10 度学习模型的广泛发展和计算能力的大幅提升对语音识别威廉希尔官方网站的提升起到了关键作用。本文立足于语音识别与深度学习理论紧密结合，针对如何利用深度学习模型搭建区分能力更强鲁棒性更

2020-05-09 08:00:00

Google科学家设计简化稀疏架构Switch Transformer，语言模型的参数量可扩展至 1.6 万亿

（GPT-3 是 1750 亿）。在计算资源相同的情况下，Switch Transformer 的训练速度可以达到 T5 模型的 4-7 倍。在深度学习领域，模型通常会对所有输入重用相同的参数

2021-01-13 16:50:49

2638

深度学习模型的对抗攻击及防御措施

深度学习作为人工智能威廉希尔官方网站的重要组成部分，被广泛应用于计算机视觉和自然语言处理等领域。尽管深度学习在图像分类和目标检测等任务中取得了较好性能，但是对抗攻击的存在对深度学习模型的安全应用构成了潜在威胁

2021-03-12 13:45:53

Transformer模型的多模态学习应用

随着Transformer在视觉中的崛起，Transformer在多模态中应用也是合情合理的事情，甚至以后可能会有更多的类似的paper。

2021-03-25 09:29:59

9836

基于深度学习的疲劳驾驶检测算法及模型

为实现复杂驾驶环境下驾驶人员疲劳状态识别与预警，提出基于深度学习的疲劳驾驶检测算法。利用基于 shuffle- channel思想的 MTCNN模型检测常规摄像头实时采集的驾驶人员人脸图像

2021-03-30 09:17:55

综述深度学习的卷积神经网络模型应用及发展

深度学习是机器学习和人工智能研究的最新趋势，作为一个十余年来快速发展的崭新领域，越来越受到研究者的关注。卷积神经网络（CNN）模型是深度学习模型中最重要的一种经典结构，其性能在近年来深度学习任务

2021-04-02 15:29:04

深度模型中的优化与学习课件下载

2021-04-07 16:21:01

基于深度学习的图像修复模型及实验对比

深度学习威廉希尔官方网站在解决¨大面积缺失图像修复”问題时具有重要作用并带来了深远影响，文中在简要介绍传统图像修复方法的基础上，重点介绍了基于深度学习的修复模型，主要包括模型分类、优缺点对比、适用范围和在常用数据集上的

2021-04-08 09:38:00

深度神经网络模型的压缩和优化综述

数据集上的表现非常卓越。然而，由于其计算量大、存储成本高、模型复杂等特性，使得深度学习无法有效地应用于轻量级移动便携设备。因此，压缩、优化深度学习模型成为目前硏究的热点。当前主要的模型压缩方法有模型裁剪、轻

2021-04-12 10:26:59

模型化深度强化学习应用研究综述

深度强化学习（DRL）作为机器学习的重要分攴，在 Alphago击败人类后受到了广泛关注。DRL以种试错机制与环境进行交互，并通过最大化累积奖赏最终得到最优策略。强化学习可分为无模型强化学习和模型

2021-04-12 11:01:52

基于预训练模型和长短期记忆网络的深度学习模型

作为模型的初始化词向量。但是，随机词向量存在不具备语乂和语法信息的缺点;预训练词向量存在¨一词-乂”的缺点，无法为模型提供具备上下文依赖的词向量。针对该问题，提岀了一种基于预训练模型BERT和长短期记忆网络的深度学习

2021-04-20 14:29:06

详谈机器学习模型算法的质量保障方案

近年来，机器学习模型算法在越来越多的工业实践中落地。在滴滴，大量线上策略由常规算法迁移到机器学习模型算法。如何搭建机器学习模型算法的质量保障体系成为质量团队急需解决的问题之一。本文整体介绍了机器学习模型算法的质量保障方案，并进一步给出了滴滴质量团队在机器学习模型效果评测方面的部分探索实践。

2021-05-05 17:08:00

2010

改进的多尺度深度网络手势识别模型

基于传统的浅层学习网络由于过度依赖于人工选择手势特征，因此不能实时适应复杂多变的自然场景。在卷积神经网络架构的基础上，提岀了一种改进的多尺度深度网络手势识别模型，该模型能够利用卷积层自动学习手势特征

2021-05-29 14:44:10

什么？不用GPU也能加速你的YOLOv3深度学习模型

解决烦恼，让你的深度学习模型效率“一节更比七节强”！ Neural Magic是专门研究深度学习的稀疏方法的公司，这次他们发布了教程：用recipe稀疏化YOLOv3。听起来有点意思啊，让我们来看看是怎么实现的~ 稀疏化的YOLOv3 稀疏化的YOLOv3使用剪枝（prune）和量化（qua

2021-06-10 15:33:02

1975

使用跨界模型Transformer来做物体检测！

用了Transformer 架构开发的一个目标检测模型。在这篇文章中，我将通过分析DETR架构的内部工作方式来帮助提供一些关于它的直觉。下面，我将解释一些结构，但是如果你只是想了解如何使用模型，可以直接跳到代码部分

2021-06-10 16:04:39

1913

基于评分矩阵与评论文本的深度学习模型

2021-06-24 11:20:30

基于深度学习的文本主题模型研究综述

2021-06-24 11:49:18

结合基扩展模型和深度学习的信道估计方法

2021-06-30 10:43:39

移植深度学习算法模型到海思AI芯片

本文大致介绍将深度学习算法模型移植到海思AI芯片的总体流程和一些需要注意的细节。海思芯片移植深度学习算法模型，大致分为模型转换，...

2022-01-26 19:42:35

Microsoft使用NVIDIA Triton加速AI Transformer模型应用

Microsoft 的目标是，通过结合使用 Azure 与 NVIDIA GPU 和 Triton 推理软件，率先将一系列强大的 AI Transformer 模型投入生产用途。

2022-04-02 13:04:21

1456

如何为深度学习模型设计审计方案

　　在本文中，我们开发了一个深度学习（ DL ）模型审计框架。越来越多的人开始关注 DL 模型中的固有偏见，这些模型部署在广泛的环境中，并且有多篇关于部署前审核 DL 模型的必要性的新闻文章。我们的框架将这个审计问题形式化，我们认为这是在部署期间提高 DL 模型的安全性和道德使用的一个步骤。

2022-04-19 14:50:24

1083

超详细配置教程：用Windows电脑训练深度学习模型

虽然大多数深度学习模型都是在 Linux 系统上训练的，但 Windows 也是一个非常重要的系统，也可能是很多机器学习初学者更为熟悉的系统。要在 Windows 上开发模型，首先当然是配置开发环境

2022-11-08 10:57:44

1101

深度学习模型的部署方法

当我们辛苦收集数据、数据清洗、搭建环境、训练模型、模型评估测试后，终于可以应用到具体场景，但是，突然发现不知道怎么调用自己的模型，更不清楚怎么去部署模型！这也是今天“计算机视觉研究院”要和大家

2022-12-01 11:30:36

1684

ChatGPT反思大语言模型的威廉希尔官方网站精要

在Bert和GPT模型出现之前，NLP领域流行的威廉希尔官方网站是深度学习模型，而NLP领域的深度学习，主要依托于以下几项关键威廉希尔官方网站：以大量的改进LSTM模型及少量的改进CNN模型作为典型的特征抽取

2023-01-11 14:33:51

1728

大模型为什么是深度学习的未来？

与传统机器学习相比，深度学习是从数据中学习，而大模型则是通过使用大量的模型来训练数据。深度学习可以处理任何类型的数据，例如图片、文本等等；但是这些数据很难用机器完成。大模型可以训练更多类别、多个级别的模型，因此可以处理更广泛的类型。另外：在使用大模型时，可能需要一个更全面或复杂的数学和数值计算的支持。

2023-02-16 11:32:37

1605

AI大语言模型的原理、演进及算力测算专题报告

GPT是基于Transformer架构的大语言模型，近年迭代演进迅速。构建语言模型是自然语言处理中最基本和最重要的任务之一。GPT是基于Transformer架构衍生出的生成式预训练的单向语言模型，通过对大量语料数据进行无监督学习

2023-04-28 10:01:59

585

基于transformer的编码器-解码器模型的工作原理

与基于 RNN 的编码器-解码器模型类似，基于 transformer 的编码器-解码器模型由一个编码器和一个解码器组成，且其编码器和解码器均由残差注意力模块 (residual attention blocks) 堆叠而成。

2023-06-11 14:17:34

1145

基于Transformer的大型语言模型（LLM）的内部机制

工作原理变得越来越重要。更好地理解这些模型是如何做出决策的，这对改进模型和减轻其故障（如幻觉或推理错误）至关重要。众所周知，最近 LLM 成功的一个重要因素是它们能够从上下文中学习和推理。LLM 对这些上下文的学习能力通常归功于 Transformer 架构，特别

2023-06-25 15:08:49

991

2D Transformer 可以帮助3D表示学习吗？

预训练的2D图像或语言Transformer：作为基础Transformer模型，具有丰富的特征表示能力。作者选择了先进的2D Transformer模型作为基础模型，例如Vision Transformers (ViTs) 或者语言模型（如BERT）。

2023-07-03 10:59:43

387

transformer模型详解：Transformer 模型的压缩方法

动机&背景 Transformer 模型在各种自然语言任务中取得了显著的成果，但内存和计算资源的瓶颈阻碍了其实用化部署。低秩近似和结构化剪枝是缓解这一瓶颈的主流方法。然而，作者通过分析发现，结构化

2023-07-17 10:50:43

1172

AI大模型和小模型是什么？AI大模型和小模型的区别

　　随着人工智能的不断发展和应用，机器学习模型的大小越来越成为一个重要的问题。在机器学习中，我们通常将模型分为两类：大模型和小模型。本文将介绍AI大模型和小模型是什么，并分析它们各自的优缺点以及区别。

2023-08-08 16:55:33

4555

深度学习的定义和特点深度学习典型模型介绍

深度学习（Deep Learning）是一种基于人工神经网络的机器学习算法，其主要特点是模型由多个隐层组成，可以自动地学习特征，并进行预测或分类。该算法在计算机视觉、语音识别、自然语言处理、推荐系统和数据挖掘等领域被广泛应用，成为机器学习领域的一种重要分支。

2023-08-21 18:22:53

929

软件漏洞检测场景中的深度学习模型实证研究

近年来，深度学习模型（DLM）在软件漏洞检测领域的应用探索引起了行业广泛关注，在某些情况下，利用DLM模型能够获得超越传统静态分析工具的检测效果。然而，虽然研究人员对DLM模型的价值预测让人惊叹，但很多人对这些模型本身的特性并不十分清楚。

2023-08-24 10:25:10

344

盘古大模型与ChatGPT的模型基础架构

华为盘古大模型以Transformer模型架构为基础，利用深层学习威廉希尔官方网站进行训练。模型的每个数量达到2.6亿个，是目前世界上最大的汉语预备训练模型之一。这些模型包含许多小模型，其中最大的模型包含1亿4千万个参数。

2023-09-05 09:55:56

1229

深度学习模型部署与优化：策略与实践；L40S与A100、H100的对比分析

深度学习、机器学习、生成式AI、深度神经网络、抽象学习、Seq2Seq、VAE、GAN、GPT、BERT、预训练语言模型、Transformer、ChatGPT、GenAI、多模态大模型、视觉大模型

2023-09-22 14:13:09

607

基于深度学习的情感语音识别模型优化策略

基于深度学习的情感语音识别模型的优化策略，包括数据预处理、模型结构优化、损失函数改进、训练策略调整以及集成学习等方面的内容。

2023-11-09 16:34:14

227

Neuro-T：零代码自动深度学习训练平台

友思特 Neuro-T为传统的深度学习视觉检测方案提供了“自动深度学习”的解决方案，结合自动标注功能，一键生成高性能视觉检测模型，无需AI领域专业知识即可创建深度学习视觉检测模型。

2023-11-24 17:58:33

242

深度学习如何训练出好的模型

算法工程、数据派THU深度学习在近年来得到了广泛的应用，从图像识别、语音识别到自然语言处理等领域都有了卓越的表现。但是，要训练出一个高效准确的深度学习模型并不容易。不仅需要有高质量的数据、合适的模型

2023-12-07 12:38:24

547

如何基于深度学习模型训练实现圆检测与圆心位置预测

Hello大家好，今天给大家分享一下如何基于深度学习模型训练实现圆检测与圆心位置预测，主要是通过对YOLOv8姿态评估模型在自定义的数据集上训练，生成一个自定义的圆检测与圆心定位预测模型

2023-12-21 10:50:05

529

如何基于深度学习模型训练实现工件切割点位置预测

Hello大家好，今天给大家分享一下如何基于深度学习模型训练实现工件切割点位置预测，主要是通过对YOLOv8姿态评估模型在自定义的数据集上训练，生成一个工件切割分离点预测模型

2023-12-22 11:07:46

259

如何优化深度学习模型?

因为大部分人使用的模型都是预训练模型，使用的权重都是在大型数据集上训练好的模型，当然不需要自己去初始化权重了。只有没有预训练模型的领域会自己初始化权重，或者在模型中去初始化神经网络最后那几个全连接层的权重。

2024-01-29 14:25:06

113

基于Transformer模型的压缩方法

基于Transformer架构的大型模型在人工智能领域中发挥着日益重要的作用，特别是在自然语言处理（NLP）和计算机视觉（CV）领域。

2024-02-22 16:27:19

211

已全部加载完成

搜索历史

关于深度学习模型Transformer模型的具体实现方案

评论