2.1 CUDA编程模型概述(二)
【CUDA 基础】2.1 CUDA编程模型概述(二)
2018-02-16 | CUDA , Freshman | 0 |
Abstract: 本文继续上文介绍CUDA编程模型关于核函数以及错误处理部分 Keywords: CUDA核函数,CUDA错误处理
CUDA编程模型概述(二)
继续CUDA编程模型的后半部分,关于核函数以及错误处理。
- 核函数
- 启动核函数
- 编写核函数
- 验证核函数
- 错误处理
核函数概述
核函数就是在CUDA模型上众多线程中运行的那段串行代码,这段代码在设备上运行,用NVCC编译,产生的机器码是GPU的机器码,所以我们写CUDA程序就是写核函数。第一步我们要确保核函数能正确地运行产生正确的结果,第二步优化CUDA程序的部分,无论是优化算法,还是调整内存结构、线程结构都是要调整核函数内的代码,来完成这些优化的。
我们一直把我们的CPU当做一个控制者,运行核函数,要从CPU发起,那么我们开始学习如何启动一个核函数。
启动核函数
启动核函数,通过以下的ANSI C扩展出的CUDA C指令:
kernel_name<<<grid, block>>>(argument list);
其标准C的原型就是C语言函数调用:
function_name(argument list);
这个三重尖括号<<<grid, block>>>
内是对设备代码执行的线程结构的配置(或者简称为对内核进行配置),也就是我们上一篇中提到的线程结构中的网格、块。回忆一下上文,我们通过CUDA C内置的数据类型dim3类型的变量来配置grid和block(上文提到过:在设备端访问grid和block属性的数据类型是uint3不能修改的常类型结构,这里反复强调一下)。
通过指定grid和block的维度,我们可以配置:
- 内核中线程的数目
- 内核中使用的线程布局
我们可以使用dim3类型的grid维度和block维度配置内核,也可以使用int类型的变量,或者常量直接初始化:
kernel_name<<<4, 8>>>(argument list);
上面这条指令的线程布局是:
我们的核函数是同时复制到多个线程执行的,上文我们说过一个对应问题,多个线程执行在同一个数据上,肯定是浪费时间,所以为了让多线程按照我们的意愿对应到不同的数据,就要给线程一个唯一的标识。由于设备内存是线性的(基本市面上的内存硬件都是线性形式存储数据的),我们观察上图,可以用threadIdx.x和blockIdx.x来组合获得对应的线程的唯一标识(后面我们会看到,threadIdx和blockIdx能组合出很多不一样的效果)。
接下来我们就是修改代码的时间了,改变核函数的配置,产生运行结果一样,但效率不同的代码:
- 一个块:
kernel_name<<<1, 32>>>(argument list);
- 32个块:
kernel_name<<<32, 1>>>(argument list);
上述代码如果没有特殊结构在核函数中,执行结果应该一致,但是效率会有所不同。
上面这些是启动部分,当主机启动了核函数,控制权马上回到主机,而不是主机等待设备完成核函数的运行,这一点我们上一篇文章也有提到过(就是等待hello world输出的那段代码后面要加一句)。
想要主机等待设备端执行可以用下面这个函数:
cudaError_t cudaDeviceSynchronize(void);
这是一个显式的方法,对应的也有隐式方法,隐式方法就是不明确说明主机要等待设备端,而是设备端不执行完,主机没办法进行,比如内存拷贝函数:
cudaError_t cudaMemcpy(void* dst, const void* src,
size_t count, cudaMemcpyKind kind);
这个函数上文已经介绍过了,当核函数启动后的下一条指令就是从设备复制数据回主机端,那么主机端必须要等待设备端计算完成。
所有CUDA核函数的启动都是异步的,这点与C语言是完全不同的。
编写核函数
我们会启动核函数了,但是核函数哪里来的?当然是我们写的,核函数也是一个函数,但是声明核函数有一个比较模板化的方法:
__global__ void kernel_name(argument list);
注意:声明和定义是不同的,这点CUDA与C语言是一致的
在C语言函数前没有的限定符__global__
,CUDA C中还有一些其他我们在C中没有的限定符,如下:
限定符 | 执行 | 调用 | 备注 |
---|---|---|---|
global | 设备端执行 |