<aside> 💡 본 방법은 16S rRNA amplicon sequencing data를 preprcessing하는. script입니다.
</aside>
작성일: February 9, 2022
수정일: February 9, 2022
작성자: @Hojin Gwak
모든 내용에 토글을 이용해 예시를 첨부해두었습니다.
How to use 16S_preprocessing.py
본 script는 16S rRNA data에 대한 assembly, Quality Control을 포괄합니다.
sample 정보를 알려주는 description file을 준비해주셔야 합니다. (위 예시 참조) Preprocessing.csv 파일에는 각 단계별 제거된 read의 개수, 최종적으로 남은 read의 개수가 포함되어있습니다.
python 16S_preprocessing.py -c 10 --length 390 -i {raw file directory} -d meta.csv -o {output directory}
Details of pipeline
16S rRNA data preprocessing 과정을 설명합니다. 자신의 데이터에 맞는 파라미터를 설정해주시면됩니다. (length cutoff를 제외하고 대부분 default parameter를 권장합니다.)
2.1 assembly (FLASH)
두 read의 overlap부분을 기준으로 assembly를 진행합니다. overlap부분의 quality가 너무 낮을 경우 assembly되지 않고 버려질 수 있습니다.
FLASH parameters (Assembly)
--max-overlap INT Maximum overlap length; default 300
--min-overlap INT Minimum overlap length; default 20
--phred {33, 64} Phred quality score starting value; default 33
2.2 Quality Control (sickle)
Quality가 낮거나 짧은 contig를 제거합니다. Contig length cutoff는 hypervariable region에 따라 다르게 선택합니다. (아래 표 참조)
SICKLE parameters (QC)
--quality INT Phred quality cutoff; default 20
--length INT sequence length cutoff; default 60
16S DB별 hypervariable region의 길이 평균 및 표준편차.
hypervariable region | suggested | GreenGene | SILVA | SILVA_NR |
---|---|---|---|---|
V1V2 (27F-338R) | 260 | 308.40 (13.38) | 309.69 (13.09) | 307.98 (16.61) |
V3V4 (337F-806R) | 390 | 421.23 (10.67) | 422.90 (11.12) | 421.46 (12.78) |
2.3 removeN
contig중에서 N을 가진 contig를 제거합니다.
2.4 fastq_to_fasta (fastx toolkit)
fastq파일을 fasta파일로 변환합니다.