CUDA学习(四):CUDA编程七个步骤

技术2022-07-11 103

博主CUDA学习系列汇总传送门（持续更新）：编程语言|CUDA入门

文章目录

一、cudaMalloc、cudaMemcpy和cudaFree 介绍二、CUDA编程七步曲

本章节学习内容： 1、CUDA的内存开辟、复制和释放 2、CUDA编程的七个步骤

一、cudaMalloc、cudaMemcpy和cudaFree 介绍

cuda可以像调用C函数那样将参数传递给核函数当设备执行任何有用的操作时，都需要分配内存，例如将计算机返回给主机。

来看CUDA内存空间开辟、内存复制和内存释放函数

static __inline__ __host__ cudaError_t cudaMalloc( T **devPtr, size_t size ) extern __host__ cudaError_t CUDARTAPI cudaMemcpy(void *dst, const void *src, size_t count, enum cudaMemcpyKind kind);

第四个参数： cudaMemcpy分内存从主机拷贝到GPU端，从GPU拷贝到主机，从GPU拷贝到GPU。

/** * CUDA memory copy types */ enum __device_builtin__ cudaMemcpyKind { cudaMemcpyHostToHost = 0, /**< Host -> Host */ cudaMemcpyHostToDevice = 1, /**< Host -> Device */ cudaMemcpyDeviceToHost = 2, /**< Device -> Host */ cudaMemcpyDeviceToDevice = 3, /**< Device -> Device */ cudaMemcpyDefault = 4 /**< Direction of the transfer is inferred from the pointer values. Requires unified virtual addressing */ }; extern __host__ __cudart_builtin__ cudaError_t CUDARTAPI cudaFree(void *devPtr);

二、CUDA编程七步曲

一个完整的CUDA代码需要包含七个步骤： 1、获取设备 2、分配显存 3、数据传输（从CPU到GPU） 4、核函数 5、数据传输（从GPU到CPU） 6、释放显存空间 7、重置设备（可以省略）

#include <iostream> #include "cuda_runtime.h" __global__ void add(int a, int b, int *c) { *c = a + b; } int main() { int *c; int *dev_c; cudaError_t cudaStatus; cudaStatus = cudaMalloc(&dev_c, sizeof(int)); // 开辟内存 if(cudaSuccess != cudaStatus) { fprintf(stderr, "cuda melloc error!"); return -1; } add<<<1, 1>>>(2, 7, dev_c); // 核函数计算 cudaStatus = cudaMemcpy(&c, dev_c, sizeof(int), cudaMemcpyDeviceToHost); // 从GPU端拷贝到CPU端 printf("2 + 7 = %d \n", c); cudaFree(dev_c); // 释放GPU上的内存 std::cout << "Hello, World!" << std::endl; return 0; }

Processed: 0.022, SQL: 9