1. 解析環境の構築、シークエンスデータのダウンロード
2021.06.10 初稿
解析環境の構築
●遺伝研スパコンの利用申請を行う●
こちらのページを参照なさってください。
https://sc.ddbj.nig.ac.jp/personal_genome_division/pg_application/
●遺伝研スパコンでは様々なツールがready to useの状態になっています●
Singularity は HPC (High Performance Computing) 環境向けに開発されたコンテナプラットフォームです。 様々なアプリケーションのイメージファイルがインターネット上で公開されており、インストールが複雑なアプリケーションでも容易に実行環境を構築することができます。
singularity execのオプションについてはこちら。
https://sylabs.io/guides/3.5/user-guide/cli/singularity_exec.html
よく使うのはsingularity -e
-e, --cleanenv clean environment before running container
シークエンスデータのダウンロード
企業から返ってきたシークエンスデータをダウンロードします。
Data download informationのシートにfasta.gzへのリンクが載せられているので、wgetを用いてダウンロードリンク先のファイルを取得。
$ wget https://data.macrogen.com/~macro3/HiSeq02//20220321/HN00166714/rnaseq_sample_1.fastq.gz
データシートには「In order to verify the integrity of files, md5sum is used. If the values of md5sum are the same, there is no forgery, modification or omission. 」とあるのでmd5sumコマンドを用いて、ダウンロードしたファイルに破損や改変がないことを確認します。
$ md5sum rnaseq_sample_1.fastq.gz
提供されたmd5sum値と比較し、値が一致しているかを確認。
たくさんのRNA-seqデータがあるときに一つ一つチェックするのは面倒なので、特定のディレクトリの配下にあるファイル全てのMD5ハッシュをリストにして、提供されたものと一致しているか確認します。まずはファイル全てのmd5ハッシュをリストにしてファイル出力するコマンドが以下。
$ find 対象のディレクトリ -type f -exec md5sum {} \; > ディレクトリ名.md5sum
チェックする場合は、単一ファイルの場合と同じで、
$ md5sum -c ディレクトリ名.md5sum
で全ファイル分をチェックしてくれます。
ディレクトリ名/rnaseq_sample_1.fastq.gz: OK
のように返ってきたら破損なし。次のステップに進めます。