Tensorboardをリモートで使えるようにコンテナを作成する
リモートのスパコンでディープラーニングの学習をしている途中で、Lossがどの程度になっているのか(収束しているのか)を可視化して確認したいときがあると思う。
そのときは、ポート番号を指定してコンテナを作成しないとtensorboardで調べたくても自分のローカルPCで見ることはできない。
コマンドはこれを実行!
nvidia-docker run -it -p 6006:6006 --name masaki_tf -v /home/masaki:/home/tensorflow/models/research/masaki [image name] /bin/bash
これはnvidiaのスパコン(dgx-1)でコンテナを作成するときの実行コマンドの例。
6006:6006
は[ホストPC(ローカルPC)のポート]:[コンテナのポート]となるように設定する。
tensorboardを使うときの実行コマンド
コンテナを作成して学習を始めることができたら、あとはモデルが保存されているディレクトリ内で以下のコマンドを実行する。
tensorboard --logdir . --host=0.0.0.0
そして、自分のウェブブラウザ(Google ChromeとかFireFox)のURLに
localhost:6006
といった感じで入力すれば学習状況をグラフで見ることができる。