CUDA学习笔记第一篇：一个基本的CUDA C程序-电子发烧友网

来源：AI 人工智能初学者
作者：ChaucerG

1、CUDA的简介
2、GPU架构和CUDA介绍
3、CUDA架构
4、开发环境说明和配置
5、开始第一个Hello CUDA程序
5.1、VS2017创建NVIDIA CUDA项目
5.2、VS2017中输入 CUDA代码（附.cu代码以及讲解）
5.3、VS2017生成并开始执行
参考

1、CUDA的简介

计算统一设备架构（Compute Unified Device Architecture，CUDA）是由英伟达（NVIDIA）开发的一套非常流行的并行计算平台和编程模型。它只支持NVIDIA GPU卡。OpenCL则用来为其他类型的GPU编写并行代码，比如AMD和英特尔，但它比CUDA更复杂。CUDA可以使用简单的编程API在图形处理单元（GPU）上创建大规模并行应用程序。

使用C和C++的软件开发人员可以通过使用CUDA C或C++来利用GPU的强大性能来加速他们的软件应用程序。用CUDA编写的程序类似于用简单的C或C++编写的程序，添加需要利用GPU并行性的关键字。CUDA允许程序员指定CUDA代码的哪个部分在CPU上执行，哪个部分在GPU上执行。

2、GPU架构和CUDA介绍

GeForce 256是英伟达于1999年开发的第一个GPU。最初只用在显示器上渲染高端图形。它们只用于像素计算。后来，人们意识到如果可以做像素计算，那么他们也可以做其他的数学计算。现在，GPU除了用于渲染图形图像外，还用于其他许多应用程序中。这些GPU被称为通用GPU（GPGPU）。

CPU具有复杂的控制硬件和较少的数据计算硬件。复杂的控制硬件在性能上提供了CPU的灵活性和一个简单的编程接口，但是就功耗而言，这是昂贵的。而另一方面，GPU具有简单的控制硬件和更多的数据计算硬件，使其具有并行计算的能力。这种结构使它更节能。缺点是它有一个更严格的编程模型。在GPU计算的早期，OpenGL和DirectX等图形API是与GPU交互的唯一方式。对于不熟悉OpenGL或DirectX的普通程序员来说，这是一项复杂的任务。这促成了CUDA编程架构的开发，它提供了一种与GPU交互的简单而高效的方式。

一般来说，任何硬件架构的性能都是根据延迟和吞吐量来度量的。延迟是完成给定任务所花费的时间，而吞吐量是在给定时间内完成任务的数量。这些概念并不矛盾。通常情况下，提高一个，另一个也会随之提高。在某种程度上，大多数硬件架构旨在提高延迟或吞吐量。

同样，正常的串行CPU被设计为优化延迟，而GPU被设计为优化吞吐量。CPU被设计为在最短时间内执行所有指令，而GPU被设计为在给定时间内执行更多指令。GPU的这种设计理念使它们在图像处理和计算机视觉应用中非常有用，这也是本书的目的，因为我们不介意单个像素处理的延迟。我们想要的是在给定的时间内处理更多的像素，这可以在GPU上完成。

综上所述，如果我们想在相同的时钟速度和功率要求下提高计算性能，那么并行计算就是我们所需要的。GPU通过让许多简单的计算单元并行工作来提供这种能力。现在，为了与GPU交互，并利用其并行计算能力，我们需要一个由CUDA提供的简单的并行编程架构。

3、CUDA架构

CUDA架构包括几个专门为GPU通用计算而设计的特性，这在早期的架构中是不存在的。它包括一个unified shedder管道，它允许GPU芯片上的所有算术逻辑单元（ALU）被一个CUDA程序编组。ALU还被设计成符合IEEE浮点单精度和双精度标准，因此它可以用于通用应用程序。指令集也适合于一般用途的计算，而不是特定于像素计算。它还允许对内存的任意读写访问。这些特性使CUDA GPU架构在通用应用程序中非常有用。

所有的GPU都有许多被称为核心（Core）的并行处理单元。

在硬件方面，这些核心被分为流处理器和流多处理器。GPU有这些流多处理器的网格。

在软件方面，CUDA程序是作为一系列并行运行的多线程（Thread）来执行的。每个线程都在不同的核心上执行。可以将GPU看作多个块（Block）的组合，每个块可以执行多个线程。每个块绑定到GPU上的不同流多处理器。

CUDA程序员不知道如何在块和流多处理器之间进行映射，但是调度器知道并完成映射。来自同一块的线程可以相互通信。GPU有一个分层的内存结构，处理一个块和多个块内线程之间的通信。这将在接下来的章节中详细讨论。

作为一名程序员，你会好奇CUDA中的编程模型是什么，以及代码将如何理解它是应该在CPU上执行还是在GPU上执行。我们将CPU及其内存称为主机（Host），GPU及其内存称为设备（Device）。CUDA代码包含主机和设备的代码。主机代码由普通的C或C++编译器在CPU上编译，设备代码由GPU编译器在GPU上编译。主机代码通过所谓的内核调用调用设备代码。它将在设备上并行启动多个线程。在设备上启动多少线程是由程序员来决定的。

现在，你可能会问这个设备代码与普通C代码有何不同。答案是，它类似于正常的串行C代码。只是这段代码是在大量内核上并行执行的。然而，要使这段代码工作，它需要设备显存上的数据。因此，在启动线程之前，主机将数据从主机内存复制到设备显存。线程处理来自设备显存的数据，并将结果存储在设备显存中。最后，将这些数据复制回主机内存进行进一步处理。综上所述，CUDA C程序的开发步骤如下：

1）为主机和设备显存中的数据分配内存。
2）将数据从主机内存复制到设备显存。
3）通过指定并行度来启动内核。
4）所有线程完成后，将数据从设备显存复制回主机内存。
5）释放主机和设备上使用的所有内存。

4、开发环境说明和配置

先决条件：

1、电脑具有支持cuda的GPU（一般具有独立显卡就可以，不过最好不要太老的版本）；
2、英伟达显卡驱动；
3、标准C编译器；
4、CUDA开发工具包。

windows10下cuda工具包的安装：

1、MicroSoft Visio Studio 2017的安装（也可以是其他的版本，笔者使用的是2017）
2、下载cuda10.1安装包（最新的是10.2）；
3、直接点击.exe文件进行安装，选择自定义安装，所有选项均勾选；
4、配置CUDA系统环境变量（和配置深度学习环境一样配置系统环境变量）。

5、开始第一个Hello CUDA程序

5.1、VS2017创建NVIDIA CUDA项目

步骤如下：

1）打开Microsoft Visual Studio。
2）进入File|New|Project。
3）依次选择NVIDIA|CUDA 10.1|CUDA 10.1 Runtime。
4）为项目自定义名称，然后单击OK按钮。
5）它将创建一个带有kernel.cu示例文件的项目。现在双击打开这个文件。
6）从文件中删除现有代码，写入前面编写的那段代码。
7）从生成（Build）选项卡中选择生成（build）进行编译，并按快捷键Ctrl+F5调试代码。

5.2、VS2017中输入 CUDA代码

#include

与C编程的区别：

1）一个名为myfirstkernel的空函数，前缀为/_/_global/_/_

2）使用<<1,1>>>调用myfirstkernel函数

/_/_global/_/_是CUDA C在标准C中添加的一个限定符，它告诉编译器在这个限定符后面的函数定义应该在设备上而不是在主机上运行。在前面的代码中，myfirstkernel将运行在设备上而不是主机上，但是，在这段代码中，它是空的。

那么，main函数将在哪里运行？NVCC编译器将把这个函数提供给C编译器，因为它没有被global关键字修饰，因此main函数将在主机上运行。

代码中的第二个不同之处在于对空的myfirstkernel函数的调用带有一些尖括号和数值。这是一个CUDA C技巧：从主机代码调用设备代码。它被称为内核调用。内核调用的细节将在后面的章节中解释。尖括号内的值表示我们希望在运行时从主机传递给设备的参数。基本上，它表示块的数量和将在设备上并行运行的线程数。因此，在这段代码中，<<<1,1>>>表示myfirstkernel将运行在设备上的一个块和一个线程或块上。虽然这不是对设备资源的最佳使用，但是理解在主机上执行的代码和在设备上执行的代码之间的区别是一个很好的起点。

让我们再来重温和修改“Hello,CUDA!”代码，myfirstkernel函数将运行在一个只有一个块和一个线程或块的设备上。它将通过一个称为内核启动的方法从main函数内部的主机代码启动。

5.3、VS2017生成并开始执行

审核编辑黄昊宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

gpu

gpu

+关注

关注
28

文章
4729

浏览量
128901
人工智能

人工智能

+关注

关注
1791

文章
47208

浏览量
238290
CUDA

CUDA

+关注

关注
0

文章
121

浏览量
13620

PCI-E TLP学习笔记（1）

今天给大侠带来PCI-Express transaction Layer specification（处理层协议），本次PCIE TLP 学习经验分享分为三篇，今天带来第一篇TLP概况（四种空间

发表于 11-06 09:14 •501次阅读

PCI-E TLP<b class='flag-5'>学习</b><b class='flag-5'>笔记</b>（1）

有没有大佬知道NI vision 有没有办法通过gpu和cuda来加速图像处理

有没有大佬知道NI vision 有没有办法通过gpu和cuda来加速图像处理

发表于 10-20 09:14

【「大模型时代的基础架构」阅读体验】+ 第一、二章学习感受

今天阅读了《大模型时代的基础架构》前两章，还是比较轻松舒适的；再就是本书知识和我的工作领域没有任何关联，一切都是新鲜的，似乎每读一页都会有所收获，这种快乐的学习过程感觉也挺不错的。第一

发表于 10-10 10:36

怎么在TMDSEVM6678: 6678自带的FFT接口和CUDA提供CUFFT函数库选择？

请教一下gpgpu上包括4个Riscv cpu和一个DPU, 没有6678，要替换原来信号处理用的6678，该怎么在6678自带的FFT接口和CU

发表于 09-27 07:20

打破英伟达CUDA壁垒？AMD显卡现在也能无缝适配CUDA了

电子发烧友网报道（文/梁浩斌）一直以来，围绕CUDA打造的软件生态，是英伟达在GPU领域最大的护城河，尤其是随着目前AI领域的发展加速，市场火爆，英伟达GPU+CUDA的开发生态则更加稳固，AMD

发表于 07-19 00:16 •4670次阅读

软件生态上超越CUDA，究竟有多难？

电子发烧友网报道（文/周凯扬）近日，英伟达凭借持续上涨的股价，正式超过了微软成为全球市值最高的公司，这固然离不开GPU这一AI硬件的火热，但之所以能一举做到世界第一，也离不开软件的加持，真正将其推向

发表于 06-20 00:09 •3611次阅读

借助NVIDIA Aerial CUDA增强5G/6G的DU性能和工作负载整合

Aerial CUDA 加速无线接入网（RAN）可加速电信工作负载，使用 CPU、GPU 和 DPU 在云原生加速计算平台上提供更高水平的频谱效率（SE）。

发表于 05-24 11:10 •571次阅读

英伟达CUDA-Q平台推动全球量子计算研究

英伟达今日公布了其重要战略决策，即采用开源的CUDA-Q平台，旨在推动德国、日本和波兰等国家超运中心在量子计算领域的创新研究。CUDA-Q作为英伟达推出的一款开源平台，不仅与QPU无关，还实现了量子

发表于 05-14 11:45 •651次阅读

Keil使用AC6编译提示CUDA版本过高怎么解决？

\' ArmClang: warning: Unknown CUDA version 10.2. Assuming the latest supported version 10.1

发表于 04-11 07:56

英伟达AI霸主地位遭巨头联手挑战，CUDA垄断遭破局

据最新外媒报道，科技界的巨头们——高通、谷歌和英特尔等，已经联手向英伟达发起了一场挑战，意图打破其在CUDA平台上的垄断局面。

发表于 03-28 14:39 •968次阅读

摩尔线程MUSA/MUSIFY与英伟达CUDA无依赖，开发者无忧

首先，摩尔线程MUSA/MUSIFY并不受到英伟达CUDA这项条款的限制，使用者可以放心地使用其相关内容。MUSA即摩尔线程自行研发，享有高度自主知识产权的全功能GPU先进计算统一系统架构；

发表于 03-06 09:22 •1303次阅读

【BBuf的CUDA笔记】OpenAI Triton入门笔记一

这里来看官方的介绍：https://openai.com/research/triton ，从官方的介绍中我们可以看到OpenAI Triton的产生动机以及它的目标是什么，还可以看到一些经典算法的实现例子展示。

发表于 01-23 10:00 •2564次阅读

如何用小安派-Eyes-S1做一个电子木鱼？

2024年的第一篇教程来了，本篇学习如何添加LVGL事件，并制作完成一个电子木鱼（小美苦苦哀求，我略微出手而已）。祝大家2024积德累功，心想事成！接下来看看如何用小安派-Eyes-S

发表于 01-13 15:18 •1019次阅读

深入浅出理解PagedAttention CUDA实现

vLLM 中，LLM 推理的 prefill 阶段 attention 计算使用第三方库 xformers 的优化实现，decoding 阶段 attention 计算则使用项目编译 CUDA 代码实现。

发表于 01-09 11:43 •1872次阅读

什么是CUDA？谁能打破CUDA的护城河？

在最近的一场“AI Everywhere”发布会上，Intel的CEO Pat Gelsinger炮轰Nvidia的CUDA生态护城河并不深，而且已经成为行业的众矢之的。

发表于 12-28 10:26 •1.3w次阅读