cuda

CUDA编程-性能优化

参考文档: CUDA C++ Best Practices Guide 持续更新中。。。 指令优化 使用数学库 在速度胜过精度的情况时,可以考虑使用数学库函数接口。函数名称前带有__下划线的函数名,此类函数在硬件级别上的映射,速度更快,精度稍低。例如:__sinf(x) 另请注意,每当计算同一参数的 ......
性能 CUDA

Linux CentOS安装CUDA

查看CUDA版本 nvidia-smi 一、卸载显卡驱动 sh cuda_11.3.1_465.19.01_linux.run --uninstall 二、下载显卡驱动 首先确定GPU服务器类型,驱动下载地址 三、下载CUDA 1、选择正确的CUDA版本 下载地址 这里我选择11.3版本,下载地址为 ......
CentOS Linux CUDA

cuda错误检测

cuda错误检测方法 宿主线程维护着一个初始化为cudaSuccess的cudaError_t类型变量,但出现错误时,该变量都会被错误代码替换。在调用cudaGetLastError()时,就会返回此变量,并将其置为cudaSucess。 CUDA 提供了相应的错误信息函数,常用的有以下两个: cu ......
错误 cuda

创建Conda环境时,自动包含当前系统中的Python和CUDA等

要在创建Conda环境时自动包含当前系统中的Python和CUDA,可以使用Conda的environment.yml文件。environment.yml文件是一个文本文件,其中包含了创建Conda环境所需的依赖项信息。 下面是一个示例的environment.yml文件,其中包含了Python和C ......
环境 Python 系统 Conda CUDA

CUDA:页锁定内存(pinned memory)和按页分配内存(pageable memory )

CUDA架构而言,主机端的内存分为两种,一种是可分页内存(pageable memroy), 一种是页锁定内存(page-lock或 pinned)。 可分页内存是由操作系统API malloc()在主机上分配,页锁定内存是由CUDA函数cudaMallocHost()和cudaHostAlloc( ......
内存 memory pageable pinned CUDA

无GPU环境中运行出错解决方法:AssertionError: Torch not compiled with CUDA enabled

在執行pytorch代碼的時候,突然看到報錯 AssertionError: Torch not compiled with CUDA enabled 這說明了 1. 你pytoch确实安装了 2. 你安装的是cpu版本 作为验证,你可以在python编辑器输入下列代码 如果要在无GPU环境中运行, ......

linux配置miniconda、pytorch、torch_scatter以及cuda. - 叶辰

在西方的天际,正在云海中下沉的夕阳仿佛被溶化着,太阳的血在云海和太空中弥漫开来,映现出一大片壮丽的血红。“这是人类的落日。” 一,miniconda下载安装以及注意事项 1,下载 进入官网miniconda 正常选择最新版Miniconda3 Linux 64-bit, jetson选择Minico ......

win10下编译DCNv2报错打不开"dcn_v2_cuda.obj"

1、换了cuda11.0和torch1.7.1,找了适配cuda11.0的DCNv2,使用的vs2019的cl.exe 链接:https://github.com/rathaROG/DCNv2_Windows, 2、之前一直没注意到vscode的terminal报错cond init什么东西,意思就 ......
下编 quot DCNv2 dcn_v DCNv

tensorflow版本与CUDA、cuDNN、Python适配表

从源代码构建 | TensorFlow (google.cn) ......
tensorflow 版本 Python cuDNN CUDA

OpenCV编译(支持CUDA模块)

OpenCV编译(支持CUDA模块) 1、编译环境 windows 11 Visual Studio 2022 cmake2.8 OpenCV 4.8 2、前置条件 预安装CUDA Toolkit 11、Visual Studio 2022、cmake2.8 3、编译OpenCV 在github中找 ......
模块 OpenCV CUDA

Jetson Mediapipe GPU/CUDA Python 包构建

使用 CPU 版本的 Mediapipe 延迟真的很高,所以试着构建了 GPU 版本的 Mediapipe。 GPU Support | MediaPipe | Google for Developers 然而 Google 官方的教程非常过时且并不是针对 Python 包的教程,参考价值非常非常小 ......
Mediapipe Jetson Python CUDA GPU

如何使用 GTX750 或 1050 显卡安装 CUDA11+

前言 由于兼容性问题,使得我们若想用较新版本的 PyTorch,通过 GPU 方式训练模型,也得更换较新版本得 CUDA 工具包。然而 CUDA 的版本又与电脑显卡的驱动程序版本关联,如果是低版本的显卡驱动程序安装 CUDA11 及以上肯定会失败。 比如 GTX750Ti 或 GTX1050Ti,出 ......
显卡 1050 CUDA GTX 750

调用gpu/cuda常见问题

调用gpu/cuda常见问题 1 、cuda out of memory 1)先查询nvidia-smi 确保gpu未占用 2)调用.cuda()方法前,确保你的系统中有可用的GPU,并且已经安装了适当的GPU驱动和CUDA工具包。否则,将会引发错误。 3) 使用这种方法可以正常使用 util是 g ......
常见问题 常见 问题 cuda gpu

libtorch+cuda12编译失败,Failed to find nvToolsExt

参考链接:Failed to find nvToolsExt - C++ - PyTorch Forums 即在安装了cuda12后再下载cuda11的安装包,并且只选择如图组件。 ......
nvToolsExt libtorch Failed cuda find

升级显卡驱动,下载cuda和cudann 12.0后,安装pytorch

1、重新创建虚拟环境 2、查找pytorch版本 安装Pytorch如何选择CUDA的版本,看这一篇就够了 - 知乎 (zhihu.com) Previous PyTorch Versions | PyTorch 安装支持CUDA 12的pytorch教程 - 知乎 (zhihu.com) 于是: ......
显卡驱动 显卡 pytorch cudann cuda

cuda安装记录

1、显卡驱动程序更新 2、安装cuda https://developer.nvidia.com/cuda-toolkit-archive 3、安装cudann 重启电脑 cuDNN Archive | NVIDIA Developer ......
cuda

【转载】CUDA编程学习记录 C++

参考 Yuezero 的 CUDA编程基础(https://blog.csdn.net/weixin_54338498/article/details/127947551) CUDA 编程模型 host 指代 CPU及其内存,包含host程序 device 指代 GPU及其内存,包含device程序 ......
CUDA

Tensorflow2.X+cuda+cudnn配置指南(RTX4060+win11+Anaconda3)

【背景】 前段时间要做一个python语音识别模型,需要tf进行训练,考虑到有GPU就不用限制在CPU上了,所以尝试配置Tensorflow. 系统配置为: RTX4060+win11+Anaconda3,使用python3.10配置完成。 【补充建议:使用虚拟环境进行版本管理,我用anaconda ......

cuda vectorized实现矩阵转秩

使用了共享内存和向量化传输,目前为止效果最好的一个实现 __global__ void transposeSmemVec(float* input, float* output, const int X, const int Y){ __shared__ float smem[32 * 4 * 32 ......
矩阵 vectorized cuda

RuntimeError: “nll_loss_forward_reduce_cuda_kernel_2d_index“ not implemented for ‘Int‘

RuntimeError: "nll_loss_forward_reduce_cuda_kernel_2d_index" not implemented for 'Int' Traceback (most recent call last): File "E:/MyWorkspace/EEG/Pyt ......

【GPU】cuda(伪)编程学习

一、编程模型 主机(host)-设备(device)模型:xxxx编程模型使开发人员能够在包含cpu和gpu的异构计算机系统上编写和执行程序; 核函数:从主机启动并在gpu设备上执行的函数成为核函数,是xxxx编程模型的关键组件,在设备内从空间中运行; 线程层次结构:xxxx采用Grid-Workg ......
cuda GPU

Anaconda-cuda toolkit-cudnn-torch-torchvision安装

1.Anaconda安装 进入清华镜像网下载:清华大学开源软件镜像站 | Tsinghua Open Source Mirror 1.通过搜索框找到Anaconda 2.点击archive 3.找到与操作系统匹配以及所需的anaconda版本进行下载 4.另存到D盘 5.双击进行安装 6.配置环境变 ......

windows的深度学习环境软件版本(cuda/cudnn/pytorch)

恢复内容开始 为了方便多个深度学习框架的环境配置,推荐使用anoconda进行搭建。 CUDA Toolkit Archive | NVIDIA Developer 恢复内容结束 ......
深度 windows pytorch 版本 环境

记一次服务器Cuda驱动崩溃修复过程

基本过程 今天实验室师兄在服务器运行深度学习训练时候得到报错CUDA initialization: Unexpected error from cudaGetDeviceCount()疑似Cuda与NVIDIA显卡驱动沟通中出现了问题,使用nvidia-smi指令时提示Failed to init ......
过程 服务器 Cuda

cuda visual studio integration vs2017安装失败

版本不匹配?还是之前安装了旧的nvidia程序? 参考1:https://zhuanlan.zhihu.com/p/150579521?utm_id=0 参考2:https://blog.csdn.net/qq_40963335/article/details/104907922 ......
integration visual studio cuda 2017

安装多个cuda并进行自由切换

参考:https://www.cnblogs.com/smileglaze/p/16826946.html cd /usr/local 画红线的就是cuda本体,有两个版本。 (上面两个是软链接,会链接到cuda本体(具体链接到哪一个需要自己检查以下),cuda软链接可以留着,cuda-12软链接暂 ......
多个 cuda

【地表最强】深度学习环境配置攻略 | 【nvidia-driver】, 【cuda toolkit】, 【cudnn】, 【pytorch】

更新截止到 2023.10.16 1.要素: linux(ubuntu 22.04) nvidia-driver(也叫做 cuda driver):英伟达GPU驱动,命令:nvidia-smi cuda (也叫做 cuda toolkit): 这个必须有。CUDA是NVIDIA创建的一个并行计算平台 ......
地表 nvidia-driver 深度 toolkit pytorch

RuntimeError: Attempting to deserialize object on CUDA device 1 but torch.cuda.device_count() is 1.

问题:服务器上多块卡,使用其中一张训练的模型,在本地预测的时候报错。 解决:在torch.load中加入map_location,指定一块卡 ......

ATen/cuda/CUDAContext.h: No such file or directory缺少这个文件

报错:(FlowGANCUDA10.0) lww@r750:~/projects/FlowGAN-main/FlowGAN-main/lib/metrics/pytorch_structural_losses$ makeTraceback (most recent call last): File ......
CUDAContext directory 文件 ATen cuda

安装NVIDIA,CUDA, cuDNN的个人笔记

安装nvdian: sudo chmod +x NVIDIA-Linux-X86_64-440.100.run sudo ./NVIDIA-Linux-X86_64-440.100.run -no-x-check 在后面加上不对Xserver进行检查的命令(红色)就可以安装成功! 查看INVIDIA ......
笔记 NVIDIA cuDNN 个人 CUDA