<aside> 💡 본 방법은 16S rRNA amplicon sequencing data를 preprcessing하는. script입니다.

</aside>

작성일: February 9, 2022

수정일: February 9, 2022

작성자: @Hojin Gwak

방법에 앞서.

모든 내용에 토글을 이용해 예시를 첨부해두었습니다.

Prerequisite

Protocol.

  1. How to use 16S_preprocessing.py

    본 script는 16S rRNA data에 대한 assembly, Quality Control을 포괄합니다.

    sample 정보를 알려주는 description file을 준비해주셔야 합니다. (위 예시 참조) Preprocessing.csv 파일에는 각 단계별 제거된 read의 개수, 최종적으로 남은 read의 개수가 포함되어있습니다.

    python 16S_preprocessing.py -c 10 --length 390 -i {raw file directory} -d meta.csv -o {output directory}
    
  2. Details of pipeline

    16S rRNA data preprocessing 과정을 설명합니다. 자신의 데이터에 맞는 파라미터를 설정해주시면됩니다. (length cutoff를 제외하고 대부분 default parameter를 권장합니다.)

    2.1 assembly (FLASH)

    두 read의 overlap부분을 기준으로 assembly를 진행합니다. overlap부분의 quality가 너무 낮을 경우 assembly되지 않고 버려질 수 있습니다.

    FLASH parameters (Assembly)
        --max-overlap INT    Maximum overlap length; default 300
        --min-overlap INT    Minimum overlap length; default 20
        --phred {33, 64}     Phred quality score starting value; default 33
    

    2.2 Quality Control (sickle)

    Quality가 낮거나 짧은 contig를 제거합니다. Contig length cutoff는 hypervariable region에 따라 다르게 선택합니다. (아래 표 참조)

    SICKLE parameters (QC)
        --quality INT    Phred quality cutoff; default 20
        --length INT     sequence length cutoff; default 60
    

    16S DB별 hypervariable region의 길이 평균 및 표준편차.

    hypervariable region suggested GreenGene SILVA SILVA_NR
    V1V2 (27F-338R) 260 308.40 (13.38) 309.69 (13.09) 307.98 (16.61)
    V3V4 (337F-806R) 390 421.23 (10.67) 422.90 (11.12) 421.46 (12.78)

    2.3 removeN

    contig중에서 N을 가진 contig를 제거합니다.

    2.4 fastq_to_fasta (fastx toolkit)

    fastq파일을 fasta파일로 변환합니다.


주의 및 안내사항.