16S rRNA Preprocessing

<aside> 💡 본 방법은 16S rRNA amplicon sequencing data를 preprcessing하는. script입니다.

</aside>

작성일: February 9, 2022

수정일: February 9, 2022

작성자: @Hojin Gwak

방법에 앞서.

모든 내용에 토글을 이용해 예시를 첨부해두었습니다.

토글을 내려 확인해주세요.

Prerequisite

Python (≥3.6)
- pandas
- tqdm
FLASH
sickle
fastx toolkit

Protocol.

How to use 16S_preprocessing.py

본 script는 16S rRNA data에 대한 assembly, Quality Control을 포괄합니다.
- input: .fastq + meta.csv
- output: .fasta + Preprocessing.csv
sample 정보를 알려주는 description file을 준비해주셔야 합니다. (위 예시 참조) Preprocessing.csv 파일에는 각 단계별 제거된 read의 개수, 최종적으로 남은 read의 개수가 포함되어있습니다.
- HOW TO USE
```
python 16S_preprocessing.py -c 10 --length 390 -i {raw file directory} -d meta.csv -o {output directory}
```
Details of pipeline

16S rRNA data preprocessing 과정을 설명합니다. 자신의 데이터에 맞는 파라미터를 설정해주시면됩니다. (length cutoff를 제외하고 대부분 default parameter를 권장합니다.)

2.1 assembly (FLASH)

두 read의 overlap부분을 기준으로 assembly를 진행합니다. overlap부분의 quality가 너무 낮을 경우 assembly되지 않고 버려질 수 있습니다.
```
FLASH parameters (Assembly)
    --max-overlap INT    Maximum overlap length; default 300
    --min-overlap INT    Minimum overlap length; default 20
    --phred {33, 64}     Phred quality score starting value; default 33
```
2.2 Quality Control (sickle)

Quality가 낮거나 짧은 contig를 제거합니다. Contig length cutoff는 hypervariable region에 따라 다르게 선택합니다. (아래 표 참조)
```
SICKLE parameters (QC)
    --quality INT    Phred quality cutoff; default 20
    --length INT     sequence length cutoff; default 60
```
16S DB별 hypervariable region의 길이 평균 및 표준편차.

hypervariable region suggested GreenGene SILVA SILVA_NR

V1V2 (27F-338R) 260 308.40 (13.38) 309.69 (13.09) 307.98 (16.61)

V3V4 (337F-806R) 390 421.23 (10.67) 422.90 (11.12) 421.46 (12.78)

2.3 removeN

contig중에서 N을 가진 contig를 제거합니다.

2.4 fastq_to_fasta (fastx toolkit)

fastq파일을 fasta파일로 변환합니다.

hypervariable region	suggested	GreenGene	SILVA	SILVA_NR
V1V2 (27F-338R)	260	308.40 (13.38)	309.69 (13.09)	307.98 (16.61)
V3V4 (337F-806R)	390	421.23 (10.67)	422.90 (11.12)	421.46 (12.78)

주의 및 안내사항.

script를 사용하기 전, FLASH, sickle, fastq_to_fasta executable 파일의 경로가 script 맨 상단 FLASH, SICKLE, QtoA 변수에 기입되어있는지 확인해주세요. 각 서버별로 executable file의 경로를 기입해주셔야 합니다.