top of page

7. フィルタリング

2021.06.10 初稿

 

転写産物をフィルタリングして低発現のものや重複しているものを除外する。

ここでは全てのサンプルでTPMが1以下のものを除外。

 

```

TRINITY_HOME=/usr/local/bin/trinityrnaseq

singularity exec -e ${HOME}/trinityrnaseq.v2.11.0.simg \

${TRINITY_HOME}/util/filter_low_expr_transcripts.pl \

--matrix RSEM.isoform.TPM.not_cross_norm \

--transcripts Trinity.fasta \

--min_expr_any 1 \

--gene_to_trans_map \

--trinity_mode \

> over_1_TPM.fasta 

```

次に、CD-HITでクラスタリングを行い(CD-HITはかなり時間がかかるため、TPMでまずサイズダウンしてからかけるのが良い)、95%以上一致する配列(=同じ遺伝子由来のものだが、異なるisoformとして予想されているもの)を除去し、長いものを残す。

```

#!/bin/bash

#$ -S /bin/sh

#$ -l s_vmem=64G,mem_req=64G

#$ -cwd

#$ -o ~/results_sh_eando

#$ -e ~/results_sh_eando

ulimit -s unlimited

echo “pwd: $(pwd)”

echo HOME: $HOME

echo USER: $USER

echo HOSTNAME: $HOSTNAME

 

echo starting at

date

 

singularity exec -e /usr/local/biotools/c/cd-hit:4.8.1--hdbcaa40_1 \

cd-hit-est -i over_1_TPM.fasta  \

-l 150 \

-n 5 \

-c 0.95 \

-T 8 \

-M 188000 \

-o filtered_Trinity.fasta

 

echo ending at

date

```

 

参考にしたページ

上坂さんのページ:https://kazumaxneo.hatenablog.com/entry/2021/12/25/212853

TransRateについて:https://kazumaxneo.hatenablog.com/entry/2017/08/01/112401

TransRateについて2:http://hibberdlab.com/transrate/getting_started.html

bottom of page