top of page

1. 解析環境の構築、シークエンスデータのダウンロード

2021.06.10 初稿

 

解析環境の構築

●遺伝研スパコンの利用申請を行う●

こちらのページを参照なさってください。

https://sc.ddbj.nig.ac.jp/personal_genome_division/pg_application/

 

●遺伝研スパコンでは様々なツールがready to useの状態になっています●

Singularity は HPC (High Performance Computing) 環境向けに開発されたコンテナプラットフォームです。 様々なアプリケーションのイメージファイルがインターネット上で公開されており、インストールが複雑なアプリケーションでも容易に実行環境を構築することができます。

 

singularity execのオプションについてはこちら。

https://sylabs.io/guides/3.5/user-guide/cli/singularity_exec.html

よく使うのはsingularity -e

-e, --cleanenv               clean environment before running container

 

シークエンスデータのダウンロード

企業から返ってきたシークエンスデータをダウンロードします。

Data download informationのシートにfasta.gzへのリンクが載せられているので、wgetを用いてダウンロードリンク先のファイルを取得。

$ wget https://data.macrogen.com/~macro3/HiSeq02//20220321/HN00166714/rnaseq_sample_1.fastq.gz

 

データシートには「In order to verify the integrity of files, md5sum is used. If the values of md5sum are the same, there is no forgery, modification or omission. 」とあるのでmd5sumコマンドを用いて、ダウンロードしたファイルに破損や改変がないことを確認します。

$ md5sum rnaseq_sample_1.fastq.gz

提供されたmd5sum値と比較し、値が一致しているかを確認。 

 

たくさんのRNA-seqデータがあるときに一つ一つチェックするのは面倒なので、特定のディレクトリの配下にあるファイル全てのMD5ハッシュをリストにして、提供されたものと一致しているか確認します。まずはファイル全てのmd5ハッシュをリストにしてファイル出力するコマンドが以下。

$ find 対象のディレクトリ -type f -exec md5sum {} \; > ディレクトリ名.md5sum

 

チェックする場合は、単一ファイルの場合と同じで、

$ md5sum -c ディレクトリ名.md5sum

で全ファイル分をチェックしてくれます。

ディレクトリ名/rnaseq_sample_1.fastq.gz: OK 

のように返ってきたら破損なし。次のステップに進めます。

bottom of page