CUDA学习(四):CUDA编程七个步骤

    技术2022-07-11  90


    博主CUDA学习系列汇总传送门(持续更新):编程语言|CUDA入门


    文章目录

    一、cudaMalloc、cudaMemcpy和cudaFree 介绍二、CUDA编程七步曲


    本章节学习内容: 1、CUDA的内存开辟、复制和释放 2、CUDA编程的七个步骤


    一、cudaMalloc、cudaMemcpy和cudaFree 介绍

    cuda可以像调用C函数那样将参数传递给核函数 当设备执行任何有用的操作时,都需要分配内存,例如将计算机返回给主机。

    来看CUDA内存空间开辟、内存复制和内存释放函数

    static __inline__ __host__ cudaError_t cudaMalloc( T **devPtr, size_t size ) extern __host__ cudaError_t CUDARTAPI cudaMemcpy(void *dst, const void *src, size_t count, enum cudaMemcpyKind kind);

    第四个参数: cudaMemcpy分 内存从主机拷贝到GPU端,从GPU拷贝到主机,从GPU拷贝到GPU。

    /** * CUDA memory copy types */ enum __device_builtin__ cudaMemcpyKind { cudaMemcpyHostToHost = 0, /**< Host -> Host */ cudaMemcpyHostToDevice = 1, /**< Host -> Device */ cudaMemcpyDeviceToHost = 2, /**< Device -> Host */ cudaMemcpyDeviceToDevice = 3, /**< Device -> Device */ cudaMemcpyDefault = 4 /**< Direction of the transfer is inferred from the pointer values. Requires unified virtual addressing */ }; extern __host__ __cudart_builtin__ cudaError_t CUDARTAPI cudaFree(void *devPtr);

    二、CUDA编程七步曲

    一个完整的CUDA代码需要包含七个步骤: 1、获取设备 2、分配显存 3、数据传输 (从CPU到GPU) 4、核函数 5、数据传输(从GPU到CPU) 6、释放显存空间 7、重置设备(可以省略)

    #include <iostream> #include "cuda_runtime.h" __global__ void add(int a, int b, int *c) { *c = a + b; } int main() { int *c; int *dev_c; cudaError_t cudaStatus; cudaStatus = cudaMalloc(&dev_c, sizeof(int)); // 开辟内存 if(cudaSuccess != cudaStatus) { fprintf(stderr, "cuda melloc error!"); return -1; } add<<<1, 1>>>(2, 7, dev_c); // 核函数计算 cudaStatus = cudaMemcpy(&c, dev_c, sizeof(int), cudaMemcpyDeviceToHost); // 从GPU端拷贝到CPU端 printf("2 + 7 = %d \n", c); cudaFree(dev_c); // 释放GPU上的内存 std::cout << "Hello, World!" << std::endl; return 0; }
    Processed: 0.027, SQL: 9