7. フィルタリング
2021.06.10 初稿
転写産物をフィルタリングして低発現のものや重複しているものを除外する。
ここでは全てのサンプルでTPMが1以下のものを除外。
```
TRINITY_HOME=/usr/local/bin/trinityrnaseq
singularity exec -e ${HOME}/trinityrnaseq.v2.11.0.simg \
${TRINITY_HOME}/util/filter_low_expr_transcripts.pl \
--matrix RSEM.isoform.TPM.not_cross_norm \
--transcripts Trinity.fasta \
--min_expr_any 1 \
--gene_to_trans_map \
--trinity_mode \
> over_1_TPM.fasta
```
次に、CD-HITでクラスタリングを行い(CD-HITはかなり時間がかかるため、TPMでまずサイズダウンしてからかけるのが良い)、95%以上一致する配列(=同じ遺伝子由来のものだが、異なるisoformとして予想されているもの)を除去し、長いものを残す。
```
#!/bin/bash
#$ -S /bin/sh
#$ -l s_vmem=64G,mem_req=64G
#$ -cwd
#$ -o ~/results_sh_eando
#$ -e ~/results_sh_eando
ulimit -s unlimited
echo “pwd: $(pwd)”
echo HOME: $HOME
echo USER: $USER
echo HOSTNAME: $HOSTNAME
echo starting at
date
singularity exec -e /usr/local/biotools/c/cd-hit:4.8.1--hdbcaa40_1 \
cd-hit-est -i over_1_TPM.fasta \
-l 150 \
-n 5 \
-c 0.95 \
-T 8 \
-M 188000 \
-o filtered_Trinity.fasta
echo ending at
date
```
参考にしたページ
上坂さんのページ:https://kazumaxneo.hatenablog.com/entry/2021/12/25/212853
TransRateについて:https://kazumaxneo.hatenablog.com/entry/2017/08/01/112401
TransRateについて2:http://hibberdlab.com/transrate/getting_started.html