博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
《转载》 cpp文件调用CUDA .cu文件实现显卡加速相关编程
阅读量:7120 次
发布时间:2019-06-28

本文共 3300 字,大约阅读时间需要 11 分钟。

转自:   http://m.blog.csdn.net/blog/oHanTanYanYing/39855829

 

本篇文章谈的是cpp文件如何调用CUDA的.cu文件实现显卡加速的相关编程。当然,这是在默认已经配置好CUDA的情况下进行的,如果对于如何配置CUDA还有疑问可以看之前写的。另外,现在CUDA已经放出了支持VS2013的6.5版本,所以还是建议用最新的,毕竟VS2013好用太多,配置起来也没什么区别。关于那篇配置文章,并没有解决CUDA相关函数偶有错误提示的问题,虽然对于编译没有影响,但是对于有强迫症的人来说还是比较纠结的,本人研究过后会更新,望周知。

 

    关于如何通过cpp文件调用CUDA的.cu文件实现显卡加速相关编程的问题,有两种方法。本篇先谈的是根据VS2013模板创建CUDA工程(安装6.5版本CUDA后可看到)然后再加入cpp文件的这一种方法。至于另外的在MFC或者win32工程等添加.cu文件再进行调用这种其实本质上是差不多的,会比较麻烦,本人后面有时间再更新。

    在主题开始之前,先说下如何调用CUDA进行显卡加速,其实大的方向是十分简单的。流程大致如下:

    初始化显卡内存->将主机待处理的内存数据拷贝到显卡内存中->利用显卡处理相关的数据->将处理完成的显卡内存数据拷回主机内存

 

    OK,下面进入主题

    首先创建CUDA工程,工程创建完成之后会有一个.cu文件,将文件的内容替换成如下内容

 

1 #include "cuda_runtime.h" 2 #include "device_launch_parameters.h" 3 #include "main.h" 4  5  inline void checkCudaErrors(cudaError err)//错误处理函数 6  { 7        if (cudaSuccess != err) 8         { 9             fprintf(stderr, "CUDA Runtime API error: %s.\n", cudaGetErrorString(err));10             return;11         }12  }13 14 __global__ void add(int *a,int *b,int *c)//处理核函数15 {16     int tid = blockIdx.x*blockDim.x+threadIdx.x;17     for (size_t k = 0; k < 50000; k++)18     {19         c[tid] = a[tid] + b[tid];20     }21 }22 23 extern "C" int runtest(int *host_a, int *host_b, int *host_c)24 {25     int *dev_a, *dev_b, *dev_c;26     27     checkCudaErrors(cudaMalloc((void**)&dev_a, sizeof(int)* datasize));//分配显卡内存28     checkCudaErrors(cudaMalloc((void**)&dev_b, sizeof(int)* datasize));29     checkCudaErrors(cudaMalloc((void**)&dev_c, sizeof(int)* datasize));30     31     checkCudaErrors(cudaMemcpy(dev_a, host_a, sizeof(int)* datasize, cudaMemcpyHostToDevice));//将主机待处理数据内存块复制到显卡内存中32     checkCudaErrors(cudaMemcpy(dev_b, host_b, sizeof(int)* datasize, cudaMemcpyHostToDevice));33 34     add << 
> >(dev_a, dev_b, dev_c);//调用显卡处理数据35 checkCudaErrors(cudaMemcpy(host_c, dev_c, sizeof(int)* datasize, cudaMemcpyDeviceToHost));//将显卡处理完数据拷回来36 37 cudaFree(dev_a);//清理显卡内存38 cudaFree(dev_b);39 cudaFree(dev_c);40 return 0;41 }

然后在工程中添加main.h文件,添加如下内容

1 #include
//时间相关头文件,可用其中函数计算图像处理速度 2 #include
3 #define datasize 50000

下面添加main的实现文件cpp,在cpp中实现对于CUDA的.cu文件的调用。内容如下

#include "main.h"extern "C" int runtest(int *host_a, int *host_b, int *host_c);//显卡处理函数int main(){    int a[datasize], b[datasize], c[datasize];    for (size_t i = 0; i < datasize; i++)    {        a[i] = i;        b[i] = i*i;    }    long now1 = clock();//存储图像处理开始时间      runtest(a,b,c);//调用显卡加速    printf("GPU运行时间为:%dms\n", int(((double)(clock() - now1)) / CLOCKS_PER_SEC * 1000));//输出GPU处理时间    long now2 = clock();//存储图像处理开始时间      for (size_t i = 0; i < datasize; i++)    {        for (size_t k = 0; k < 50000; k++)        {            c[i] = (a[i] + b[i]);        }    }    printf("CPU运行时间为:%dms\n", int(((double)(clock() - now2)) / CLOCKS_PER_SEC * 1000));//输出GPU处理时间    /*for (size_t i = 0; i < 100; i++)//查看计算结果    {        printf("%d+%d=%d\n", a[i], b[i], c[i]);    }*/    getchar();    return 0;}

需要注意的是,在用来被调用的CUDA函数中要加上extern "C" 的声明,并在cpp文件中进行声明(extern "C" int runtest(int *host_a, int *host_b, int *host_c);)后再调用。

    到此本篇的第一大部分就做完了,编译运行可以看到GPU在处理复杂并行计算的时候的确比CPU快的多。关于前面提到的另外一种方法下次再谈吧,假期要结束了,额。。。

    好吧,距上面文章完成已经半年之久,来填坑了,另一种方法的。

【本博主】注:我试验过了,我的情况可用:visual studio2010  +  cuda 6.0

   

   

 

转载于:https://www.cnblogs.com/LzKlyhPorter/p/4663441.html

你可能感兴趣的文章
SaltStack Syndic配置
查看>>
Salesforce即将推出Einstein人工智能CRM平台
查看>>
网易严选App感受Weex开发
查看>>
趋势发布SecureCloud云安全技术架构
查看>>
3PAR副总裁谈09年存储虚拟化
查看>>
2009年云计算将引发一场黑客攻击高潮
查看>>
亚信基于AWS构建世界级企业互联网平台
查看>>
达索系统成立“大土木工程达索系统BIM技术推进联盟”深化应用、共享经验
查看>>
猥琐思路复现Spring WebFlow远程代码执行
查看>>
开发平台怎么选?来看看专业人士怎么说
查看>>
移动设备尚未形成DDoS的3个原因
查看>>
《OpenGL编程指南(原书第9版)》——1.4 OpenGL渲染管线
查看>>
《中国人工智能学会通讯》——7.7 结束语
查看>>
勒索软件好多都使用恶意LNK链接文件欺骗用户 来看趋势科技分析新型LNK-PowerShell攻击...
查看>>
《数字逻辑设计与计算机组成》一 第2章 2.1 简介
查看>>
《并行计算的编程模型》一3.5 远程内存访问:put和get
查看>>
思博伦安全专家预测2017年民用和军用全球导航应用面临的更大风险
查看>>
勒索软件指向Flash与Silverlight漏洞
查看>>
人工智能项目正在起飞:这对未来的工作意味着什么?
查看>>
天时、地利、人和,技术成熟推动闪存联盟2.0落地
查看>>