将深度学习网络训练任务搬到云端,这些坑你遇到了吗?

在进行深度学习,特别是神经网络训练时,我们可以将其视为一场对技术装备的深深考验,而精心打造的GPU服务器则是这一征途中的得力助手。然而,自建GPU服务器的高昂费用及移动性限制,使得许多人望而却步。本文将为您详细介绍如何在阿里云平台上构建一台高效的GPU服务器,并解决远程访问的难题。

选择合适的GPU服务器

ssh root@47.93.*.*#输入自己的公网IP

The authenticity of host '47.93.*.* (47.93.*.*)' can't be established.
ECDSA key fingerprint is SHA256:r60avP7Lyz01MRTFN9mbekDAcwZWv8tFUmMlo6dr/m0.
Are you sure you want to continue connecting (yes/no)? 

Warning: Permanently added '47.93.*.*' (ECDSA) to the list of known hosts.

选购阿里云GPU服务器如同探寻云端瑰宝。首先,需精选适合的地理位置,类似挖掘福地。之后,择优选取实例配置,建议應用異構計算及GPU計算功能;镜像市场深度学习版则类似璞玉精琢,预装显卡驱动与cuda8.0,免除额外困扰。

root@47.93.*.*'s password: 

在购买Linux系统过程中,确实有诸多细琐环节值得留意。譬如创建密码之际,其独特的操作方式如同参与一场庄重的传统仪式般神秘。在输入密码的过程中,屏幕上并无任何字符显现,仅需轻按回车,便可成功设定密码。

Welcome to Ubuntu 16.04.2 LTS (GNU/Linux 4.4.0-62-generic x86_64)
 * Documentation:  https://help.ubuntu.com
 * Management:     https://landscape.canonical.com
 * Support:        https://ubuntu.com/advantage
Welcome to Alibaba Cloud Elastic Compute Service !

vim /etc/hostname#ubantu的在此目录下,其他系统按需更改

vim /etc/hosts

镜像选择的智慧

127.0.0.1       localhost
127.0.0.1       bamboo_aliyun #新增
# The following lines are desirable for IPv6 capable hosts
::1     localhost ip6-localhost ip6-loopback
ff02::1 ip6-allnodes
ff02::2 ip6-allrouters

sudo: unable to resolve host iZ2ze3v1xxtg5z3w2nb8oaZ

在鏡像市場的汪洋大海中,數以百計的胚芽映入眼帘,而那些已經安裝好驅動程式及CUDA8.0的模版則更顯珍貴,就如同一張深藏在茫茫大海中的藏寶圖。遺憾的是,如果選擇了沒有事先做好這些準備的模版,那麼,在安裝過程中將會遭遇無盡的困難與時間消耗,讓人啼笑皆非。

root@GPU_aliyun:~# ls
deep_learning  nvidia  NVIDIA_CUDA-8.0_Samples

exit#推出SSH登录

安全组的守护

sudo adduser bamboo

root@GPU_aliyun:~# sudo adduser bamboo
Adding user `bamboo' ...
Adding new group `bamboo' (1000) ...
Adding new user `bamboo' (1000) with group `bamboo' ...
Creating home directory `/home/bamboo' ...
Copying files from `/etc/skel' ...
Enter new UNIX password: 
Retype new UNIX password: 
passwd: password updated successfully
Changing the user information for bamboo
Enter the new value, or press ENTER for the default
    Full Name []: bamboo
    Room Number []: 
    Work Phone []: 
    Home Phone []: 
    Other []: 
Is the information correct? [Y/n] y

安全组犹如坚固的防线,保护着您的服务器稳定运行。尽管当前采用默认配置已足够应对需求,后续我们将深入探讨更为精细化的设定方案。须知,若您的服务器运行状况良好,却无法实现远程访问,那么极有可能是由于安全组规则配置不当所致。

bamboo@bamboo-WorkBook:~$ ssh bamboo@39.106.143.143

sudo vim /etc/sudoers

文件夹权限的重要性

bamboo is not in the sudoers file.  This incident will be reported.

调整文件夹权限犹如给服务器披上强大的防护装甲。若不实施该措施,装载应用程序常会遭遇棘手状况。赋与SHELL权限更显关键,尤其对初次接触系统者而言,路径无法正常显示、Tab键失灵均可得到有效解决。

bamboo@GPU_aliyun:~$ sudo chmod -R 777 /home/bamboo/

sudo useradd -g root bamboo

远程访问的迷雾

sudo passwd bamboo

就远程访问问题而言,仿若迷雾之灯塔,导引正确航向。如已知网络功能正常却无法实现远程访问,或许需排查安全组规则配置因素。借助云服务器管理平台逐步调整相关规则,如同拨散迷雾,寻获照亮航程的明灯。

usermod -s /bin/bash bamboo

conda环境的魔力

vim /etc/sudoers

在Conda环境下进行部署堪称魔法般的快捷高效。它能自动装配并调用相关依赖包,简化操作流程之余,更为您的工作环境带来井然有序的氛围特征。

# User privilege specification
root    ALL=(ALL:ALL) ALL
bamboo  ALL=(ALL:ALL) ALL

自定义镜像的便捷

vim /etc/passwd

ssh bamboo@47.93.*.*#输入自己的公网IP

自定义镜像犹如神奇的符咒,助力您便捷地操控阿里云服务器,简化应用流程。创建完毕后务必释放实例,以确保随时随地可唤醒服务器,尽享深度学习的无尽乐趣。

sudo chmod -R 777 /home/bamboo/

文件上传下载的快捷方式

运用SCP进行文件传输犹如翱翔于云端服务器与本地计算机之境,使您实现从云端自助训练至本地深度解析的工作流程,显著提升工作效益。

git的强大助力

将深度学习网络训练任务搬到云端,这些坑你遇到了吗?插图

Git作为服务器端版本控制利器,如同私人顾问,助力您高效完成工作。未就服务器端Git设置进行详述,未来文章将探讨之,旨在提供更优质服务。

sudo wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.0.1-Linux-x86_64.sh

在此神经网络训练的挑战之旅中,除了充足的高性能GPU设施外,必须熟练掌握各类技术与策略。我期望能给那些朝气蓬勃深耕于深度学习及机器学习领域的精英们提供有益的启示,帮助他们避开险途,更快抵达胜利的顶峰。

sudo bash Anaconda3-5.0.1-Linux-x86_64.sh

最后,请各位讨论一下在此期间或在服务器部署与远程访问环节,是否遇到过令人困扰的难题?真诚期望各位能通过评论分享经验,共同探讨与学习。

In order to continue the installation process, please review the license
agreement.
Please, press ENTER to continue

Do you accept the license terms? [yes|no]

Anaconda3 will now be installed into this location:
/home/bamboo/anaconda3
  - Press ENTER to confirm the location
  - Press CTRL-C to abort the installation
  - Or specify a different location below

THE END