0. CUIで解析をする際に重要なこと(+参考にしたページ)
2021.06.09 初稿
2022.04.25 (+参考にしたページ)を追記。
※本記事における「スパコン」とは「遺伝学研究所のスーパーコンピュータ」のことを指します。
CUIで解析をする際に重要なこと
●パスを意識する●
コマンドラインを用いて解析をするとき、慣れない人がまずつまづくところは「パスとは何か」というところではないでしょうか。
どこに何があるのか把握する、ということがコマンドラインを用いて解析をする上で重要だと個人的に感じています。
GUIであれば1つずつクリックしていけば目的のファイルがどこにあるか目で見えますが、CUIではそれが難しいです。
自分のパソコン内のファイルであれば、ターミナルからは場所がわからなくなってもフォルダをクリックして確かめる、ということが可能ですが、スパコン内ということになればそれもできません。
私がこの5ヶ月解析をしていてぶち当たったエラーのほとんどが「パスを通す」ことができていないために発生したものでした。
$ ls
コマンドで何度も何度もどこに必要なファイルやスクリプトがあるか確認し、少しずつものの場所がわかるようになってきたことでエラーが減り解析がスムーズに進むようになったと感じています。
●使用メモリを推定する●
2番目に多かったエラーは「使用するメモリが足りなくて計算が途中でストップしました」というものでした。
スパコンではどのくらいのメモリを使用するか事前に指定することができますが、解析を始めたばかりの私にはどの解析にどれだけメモリが必要なのかわかりません。
初めは何も指定せず(それだとデフォルトでxx)スクリプトを走らせていたのですが、ものすごく時間がかかったり、途中でクラッシュしていたりしました。
なので、多めのメモリを指定するのが良いのかなと思っています(本来は解析に適したメモリサイズを指定すべきです!ただ私には今のところどれくらいが適正かわかっていないので多めに指定しています。慣れてきたら適正メモリサイズで指定したいです)
●まずは軽いファイルでテストしてから本番に入る●
NGS解析で扱うデータは非常に大きく、1つが○GBということも珍しくありません。
そんな重いファイルを用いて計算するともちろん解析に時間がかかります。
自分の作ったスクリプトが一通り走るのかを確認するために、まずは10GBの自分のデータから数行だけ抜き出して軽いファイルを作成し、数秒〜数分で出てきた結果を確認。その後大きいデータを投げれば、基本的に行っていることは同じでただデータが大きくなっただけなので、数日後にはちゃんと結果を得られるだろうという安堵感とともにパソコンを閉じることができます。
参考にしたページ
●チョウが食草を見分けるしくみを探る(https://www.brh.co.jp/research/lab01/RNAseq-outline/)
バイオインフォ超初心者だった私でもこのページに載っていることを真似するだけでRNA-seq解析が一通りできるようになりました。
このページを参考にして今回私の方ではスパコンではどのように動かすかをプラスアルファしてRNA-seq解析のやり方を書きました。なので、私のページでわかりにくいことがあれば、こちらのJT生命誌研究館様のページをぜひご参照なさってください。
●macでインフォマティクス(上坂一馬さんのページ)(特にここにRNA-seqの流れが簡潔にまとまっている:http://kazumaxneo.hatenablog.com/entry/2017/07/17/125137)
バイオインフォを始めた日本人の方なら一度は目にしたことがあるのではないでしょうか。そのくらい皆が使っているウェブサイトだと思います。いろいろなバイオインフォのツールやパッケージを上坂さんが使われた様子を紹介されていて、とてもわかりやすいです。