记录服务器下踩过的坑

    技术2023-08-22  93

    某人终于给借到了一台服务器,配置4张V100,华丽到吓到我了,搞到今天我的M4000不开心不工作了。

    对于服务器一窍不通的我开始摸索,而且跟之前那个服务器也不同,没有进来就有图形界面,有些迷茫。

    如何搭建环境?如何安装编译器软件?如何传递文件?是否可以远程控制?

    ————

    开始搭建环境:

    管理老师没有给wangfei2开通权限,故目前先在wangfei1上进行。

    windows环境下安装MobaXterm,打开后按sessions接入服务器,接着可以直接拉拽导入所需文件。这个软件对于处理服务器下的文件非常好用,强推!

    1.安装Anaconda

    拉入Anaconda安装包(隔壁偷来的 嘘),通过命令bash Anacon...sh,一路yes,安装成功。

    未能成功打开,需修改环境变量。

    vim ~/.bashrc

    在最后一行加入,export PATH=“/home/wangfei1/anaconda3/bin:$PATH”,然后更新配置文件source ~/.bashrc,即可。

    创建并激活环境

    conda create -n py27 python=2.7

    conda activate py27

    3.安装cuda和cudnn

    本课题使用的是tensorflow1.2+python2.7,因此对应的cuda版本为8.0,cudnn版本为5.1。首先到官网下载相应文件(这里之前下载过了拷进去就行)

    具体安装参考此教程:https://blog.csdn.net/daydayjump/article/details/88604364

    至此就安装成功cuda并且成功连接啦~

    4.安装tensorflow1.2

    pip install tensorflow-gpu==1.2.0 -i https://pypi.douban.com/simple/

    等待安装成功,python进去import tensorflow无报错,至此环境搭建成功。

     

    ————开始服务器上运行代码啦!

    【校园网非常不稳定,日常掉线,烦得不行。改天试试用更稳定的网络看看(宿舍网接网线)。】拷入数据集&代码&调整tensorflow内部库。

    解压数据集用这行代码

    cat 20bn-jester-v1-?? | tar zx

    1.验证S3D部分

    网络模型生成没有问题,导入模型也没有问题,但是无法进行验证,估计是数据集路径存在问题。

    A:通过查看目录内文件夹数目发现数目有出错,可能当时解压没有解压完全。应该有的数字是148092.

    做16个样本的测试,没有问题。所以问题出在验证集上对应不上。

    但是重复解压过几次了都不行,很奇怪。

    ——原来是因为辣鸡校园网总是断开,所以部分压缩包并没有传输完全,确保压缩包是完整的就ok了~

     

    2.偶尔遇到OOM情况

    :是因为别人同样在用服务器啦(还是三卡一起跑的)

    通过nvidia-smi 查看gpu使用情况,查看哪个进程使用内存多。通过PID查询使用的用户。

    ps -f -p (PID) 即可看到UID

     

    3.后台运行程序

    nohup python Train_s3d.py >> /home/wangfei1/Double/output &

    查看进程jobs -l可以看到已经在运行了

    运行日志在Double文件夹下output,输出日志log为20200716-1

    可以愉快地后台跑程序啦~边写论文边跑结果,舒服了。(如果能多个gpu来跑就好了 可惜我keras版本太低了)

    Processed: 0.008, SQL: 9