바이오인포매틱스

  1. Home
  2. >
  3. 사업분야
  4. >
  5. 연구 서비스
  6. >
  7. 바이오인포매틱스

바이오인포매틱스는 생물의 유전체, 전사체, 후성유전체 등의 대용량 생체 데이터로부터 의미있는 정보를 추출하는 기술입니다.
1990년대 중반 마이크로어레이 기법이 도입되면서부터 생체 빅데이터를 효율적으로 다루기 위한 목적으로 바이오인포매틱스라는 분야가 생겨났으며, 이후 약 20년 동안 빠르게 발전해 왔습니다.

현재는 주로 차세대염기서열분석법(Next Generation Sequencing, NGS)을 통해 생산되는 원시 데이터(fastq 파일)로부터 데이터의 품질 점검, 정제, 가공, 유의미한 데이터로의 변환 등 모든 과정에 바이오인포매틱스 기술이 반드시 필요합니다.

이러한 생체 빅데이터를 다루기 위해서는 생물, 통계, 수학, 전산 등 다양한 학계간의 이해가 필요하며, 많은 연구자들의 노력의 결실로 현재 다양한 툴들이 개발되어 사용되고 있습니다.

그리고 생산된 생체 빅데이터의 특징을 잘 이해하고 각 특징에 적합한 툴을 선별하는 것 역시 바이오인포매틱스의 중요한 역할입니다.
NGS 서비스 의뢰 시 아래와 같은 기본 분석 서비스가 제공 됩니다.

1. Whole Genome Sequencing

  • 생산된 리드에 대한 품질 점검
  • 해당 종의 레퍼런스 서열과 비교 및 맵핑
  • 해당 종의 레퍼런스 서열과 상이한 변이 추출
  • 변이 서열에 대한 주석(Annotation) 분석
  • 통계 및 주요 결과에 대한 레포트 제공

2. Whole Exome Sequencing(WES)

  • 생산된 리드에 대한 품질 점검
  • 해당 종의 레퍼런스 서열과 비교 및 맵핑
  • 해당 종의 레퍼런스 서열과 상이한 변이 추출
  • 변이 서열에 대한 주석(Annotation) 분석
  • 통계 및 주요 결과에 대한 레포트 제공

3. Whole Genome de novo Sequencing

  • 유전체 크기 예측 (k-mer analysis)
  • 신생 조합 유전체 구축 (De Novo assembly)
  • 유전체 주석달기 (Genome annotation)

4. RNA-Sequencing

  • 품질 점검
  • 맵핑
  • 유전자 발현값 추정
  • 유의 유전자 분석
  • 주요 기능 분석

5. de novo RNA-Sequencing

  • 품질 점검
  • 서열 조립 및 주석달기
  • Unigene 발현값 추정
  • 유의 unigenes 분석
  • 주요 기능 분석

6. Small RNA-Sequencing

  • 품질 점검
  • 맵핑
  • microRNA발현값 추정
  • 유의 miRNA 분석
  • 유의 miRNA의 타겟 유전자 예측

7. Single Cell RNA-Sequencing

  • 품질 점검 (Fastq Quality Control)
  • 맵핑 및 셀 품질 점검 (Cell Quality Control)
  • 군집화 분석 (Clustering) 및 유전자 선별 (Differentially Epression)
  • 결과 보고 (Report)

8. Whole Genome Bisulfite Sequencing

  • 품질 점검 (Fastq Quality Control)
  • 맵핑
  • Cytosine 추출
  • 주요 메틸화 영역 분석 및 주석
  • 결과 보고 (Report)

9. Chip-Sequencing

  • 품질 점검 (Fastq Quality Control)
  • 맵핑
  • 칩 품질 점검
  • 전사인자 또는 히스톤 단백질 결합 부위 도출
  • 각 결합 부위에 대한 주석 제공
  • 다양한 시각화가 포함된 결과 보고

10. Metagenome Sequencing

  • host genome 리드 제거 및 품질 점검
  • 서열 조립
  • 유전자 예측 및 주석달기
  • Taxonomy 분석

11. 16S rDNA Metagenome

  • 품질 점검 및 chimeric 리드 제거
  • Operational Taxonomic Unit (OTU) 산출
  • Taxonomy 분석

1. Whole Genome Sequencing

  • 유전자 복제수 변이(CNV: Copy Number Variation)
    인간 유전체의 경우, 통상적으로 부모에게서 한 개씩 유래된 2n의 대립 형질로 이루어져 있으나 한 개의 대립 형질이 결실 (1n) 되거나,중복 (> 3n)으로 존재하는 유전자 복제수 변이가 존재합니다. 동아시아인의 유전체를 분석한 결과, 레퍼런스 인간 유전체 대비 약 3.32%가량에 해당하는 영역에 약 5,000개 가량의 CNV가 발견되는 등 비교적 빈번하게 발견되는 변이이나 다양한 암종과의 관련성 역시 빈번하게 보고되고 있습니다. 테라젠이텍스는 유전체의 기본 분석 결과를 기반으로 유전자 복제수 변이에 대한 정보를 제공합니다.
  • 유전자 구조 변이(SV: Structural Variation)
    앞서 설명한 유전자 복제수 변이에 따른 결실, 삽입 외에도 유전자 구조 변화를 유발하는 역위(inversion), 전좌 (translocation) 등의 변이가 존재합니다. 테라젠이텍스는 전장 유전체의 기본 분석 결과를 기반으로 다양한 구조 변이에 대한 정보를 제공합니다.
  • 이형성의 소실(Loss of Heterozygosity)
    인간 유전체의 경우, 부모로부터 물려받은 2n의 대립형질의 다양한 조합으로 인한 다양성이 발생하는 것이 통상적이나, 부 또는 모로부터 물려받은 대립 형질의 특정 영역이 소실되어 1n만으로 이루어지게 되는 현상을 이형성의 소실이라고 합니다.특히 암 조직 내에서 이러한 이형성의 소실이 다량 발견되며 암 발생 과정과도 밀접한 관련이 있으므로 질병 유전체를 대상으로 한 분석이 필요합니다.
  • 가계도 분석 (Trio Analysis)
    현재 희귀질환의 경우 약 6000-7000여 종으로 알려져있는데. 이중에 병의 원인에 대해 정확이 규명된것은 극히 일부에 불과합니다. 원인 유전자를규명하기 위해 WES 혹은 WGS를 이용하여 유전질환을 가지고 있는 가계도를 바탕으로 환자에게서는 발견이 되나 가계도의 정상인에게서는 발견되지 않은 변이들을 대상으로 집중 연구가 진행되고 있으며, 수많은 변이들 중에 이를 규명하기 위해 변이의 기능, 서열보전정도,일반적인 인구 집단 내애서의 빈도를 고려하여 분석을 진행하게 됩니다.이를 위해 WES/WGS를 통해 유전질환을 앓고 있는 환자들에게 정확한 진단과 치료의 근거를 제공할 수 있습니다.

2. Whole Genome de novo Sequencing

  • 이형 상동성 유전자 그룹 분석(Orthologous gene cluster)
    계통 분류에 따라 관련있는 종들의 단백질 서열들에 대해 상동성 분석을 수행한 후, 이에 대해 기능적으로 유사할 것으로 보이는 유전자 그룹을 확인하는 분석을 수행합니다.
  • 미토콘드라아 유전체 조립 (Construction of mitochondria genome)
    해당 서비스는 진균(Fungi) 종과 척추동물(Vertebrate) 종에 해당하는 유전체 해독 데이터에 서비스가 가능하며, 미토콘드리아 데이터베이스를 기반으로 조립하는 방법으로 수행합니다.

3. RNA-Sequencing

  • 융합 유전자(Fusion Gene)
    생산된 리드 중 유전자 A와 유전자 B의 접합 영역에 대한 정보를 포함하는 리드를 기반으로 융합 유전자를 도출합니다. 암 발생 과정의 주요 인자로 작용하는 융합 유전자를 효율적으로 도출하기 위한 다양한 툴들이 존재하지만 단일 툴만으로는 높은 정확도를 얻기가 어려우므로 2개 이상의 다양한 툴을 적용한 결과를 다각적으로 분석하여 융합 유전자를 최종 도출합니다.
  • Variant
    DNA 내에 존재하는 변이는 RNA로 전사된 이후에도 발견되므로 유전체 분석과 마찬가지로 RNA 내에 존재하는 변이 정보를 분석할 수 있습니다. 이에 Samtools 툴을 활용하여 RNA-Seq 데이터 내에서 발견되는 변이 정보를 분석할 수 있습니다.
  • Gene Set Enrichment Analysis(GSEA)
    브로드 연구소에서 개발한 GSEA 툴을 사용하여 특정 조건에서 많이 발견되는 기능을 예측합니다. 유의 유전자만을 대상으로 하는 분석법과는 다르게 전체 유전자의 발현값을 대상으로 분석을 진행하므로 유의 유전자가 적게 도출되는 조건에서 활용하기에 적합한 툴입니다. 브로드 연구소에서 제공하고 있는 다양한 종류의 시그니처를 기반으로 보다 폭넓은 기능 연구가 가능합니다.
  • Pathway 분석
    특정 조건에서 유의한 발현 변화를 보이는 유의 유전자들이 특정 pathway에 관여하는지 여부를 분석합니다. 대표적으로 많이 사용되고 있는 KEGG pathway의 경우, 라이선스를 확보하신 연구자를 대상으로 중요한 pathway 분석을 제공할 수 있습니다.
  • Heatmap 분석
    유의 유전자의 발현 패턴을 효과적으로 가시화하기 위한 방법 중 한가지로 Heatmap 분석이 가능합니다. 유전자의 발현 패턴의 유사성을 기반으로 유사 유전자 그룹을 묶는 1-way hierarchical clustering 또는 샘플 유사성에 따른 샘플 그룹까지 제공하는 2-way hierarchical clustering을 제공하며 이러한 clustering 패턴을 Heatmap으로 효율적으로 가시화하여 제공합니다.
  • Time-Series 분석
    시 계열 데이터인 경우, 각 시간대에 따른 유전자의 발현 변화를 '증가, 변화 없음, 감소'의 3개 그룹으로 나눠 제공합니다. 각 그룹의 대표적인 기능을 이해하기 위해 그룹 내 유전자를 대상으로 Gene Ontology 분석을 수행하여 연구자의 이해를 돕습니다.

4. mRNA-miRNA 통합분석

  • 유의 miRNA의 타깃 유전자에 대한 발현 결과가 있다면 miRNA 발현과 유전자 발현 간 opposite direction으로 correlation을 보이는 miRNA 및 유전자에 한해서 통합 분석 결과를 제공합니다.

5. Metagenome 고급 분석

  • Gene Cluster
    Homology search를 통하여 각 taxon 레벨별 서열 유사도가 높은 유전자들에 대해서 클러스터(cluster)를 형성합니다. 선정된 진 클러스터(gene cluster)에 대해 control 대비 케이스(case)가 풍부한 클러스터를 선별합니다.