바이오인포매틱스

  1. Home
  2. >
  3. 사업분야
  4. >
  5. 연구 서비스
  6. >
  7. 바이오인포매틱스

바이오인포매틱스는 생물의 유전체, 전사체, 후성유전체 등의 대용량 생체 데이터로부터 의미있는 정보를 추출하는 기술입니다.
1990년대 중반 마이크로어레이 기법이 도입되면서부터 생체 빅데이터를 효율적으로 다루기 위한 목적으로 바이오인포매틱스라는 분야가 생겨났으며, 이후 약 20년 동안 빠르게 발전해 왔습니다.

현재는 주로 차세대염기서열분석법(Next Generation Sequencing, NGS)을 통해 생산되는 원시 데이터(fastq 파일)로부터 데이터의 품질 점검, 정제, 가공, 유의미한 데이터로의 변환 등 모든 과정에 바이오인포매틱스 기술이 반드시 필요합니다.

이러한 생체 빅데이터를 다루기 위해서는 생물, 통계, 수학, 전산 등 다양한 학계간의 이해가 필요하며, 많은 연구자들의 노력의 결실로 현재 다양한 툴들이 개발되어 사용되고 있습니다.

그리고 생산된 생체 빅데이터의 특징을 잘 이해하고 각 특징에 적합한 툴을 선별하는 것 역시 바이오인포매틱스의 중요한 역할입니다.
NGS 서비스 의뢰 시 아래와 같은 기본 분석 서비스가 제공 됩니다.

1. Whole Genome Sequencing

  • 생산된 리드에 대한 품질 점검
  • 해당 종의 레퍼런스 서열과 비교 및 맵핑
  • 해당 종의 레퍼런스 서열과 상이한 변이 추출
  • 변이 서열에 대한 주석(Annotation) 분석
  • 통계 및 주요 결과에 대한 레포트 제공

2. Whole Exome Sequencing(WES)

  • 생산된 리드에 대한 품질 점검
  • 해당 종의 레퍼런스 서열과 비교 및 맵핑
  • 해당 종의 레퍼런스 서열과 상이한 변이 추출
  • 변이 서열에 대한 주석(Annotation) 분석
  • 통계 및 주요 결과에 대한 레포트 제공

3. Whole Genome de novo Sequencing

  • 유전체 크기 예측 (k-mer analysis)
  • 신생 조합 유전체 구축 (De Novo assembly)
  • 유전체 주석달기 (Genome annotation)

4. RNA-Sequencing

  • 품질 점검
  • 맵핑
  • 유전자 발현값 추정
  • 유의 유전자 분석
  • 주요 기능 분석

5. de novo RNA-Sequencing

  • 품질 점검
  • 서열 조립 및 주석달기
  • Unigene 발현값 추정
  • 유의 unigenes 분석
  • 주요 기능 분석

6. Small RNA-Sequencing

  • 품질 점검
  • 맵핑
  • microRNA발현값 추정
  • 유의 miRNA 분석
  • 유의 miRNA의 타겟 유전자 예측

7. Single Cell RNA-Sequencing

  • 품질 점검 (Fastq Quality Control)
  • 맵핑 및 셀 품질 점검 (Cell Quality Control)
  • 군집화 분석 (Clustering) 및 유전자 선별 (Differentially Epression)
  • 결과 보고 (Report)

8. Whole Genome Bisulfite Sequencing

  • 품질 점검 (Fastq Quality Control)
  • 맵핑
  • Cytosine 추출
  • 주요 메틸화 영역 분석 및 주석
  • 결과 보고 (Report)

9. Chip-Sequencing

  • 품질 점검 (Fastq Quality Control)
  • 맵핑
  • 칩 품질 점검
  • 전사인자 또는 히스톤 단백질 결합 부위 도출
  • 각 결합 부위에 대한 주석 제공
  • 다양한 시각화가 포함된 결과 보고

10. Metagenome Sequencing

  • host genome 리드 제거 및 품질 점검
  • 서열 조립
  • 유전자 예측 및 주석달기
  • Taxonomy 분석

11. 16S rDNA Metagenome

  • 품질 점검 및 chimeric 리드 제거
  • Operational Taxonomic Unit (OTU) 산출
  • Taxonomy 분석

1. Whole Genome Sequencing

  • 유전자 복제수 변이(CNV: Copy Number Variation)
    인간 유전체의 경우, 통상적으로 부모에게서 한 개씩 유래된 2n의 대립 형질로 이루어져 있으나 한 개의 대립 형질이 결실(1n)되거나, 중복(> 3n)으로 존재하는 유전자 복제수 변이가 존재합니다. 동아시아인의 유전체를 분석한 결과, 레퍼런스 인간 유전체 대비 약 3.32%가량에 해당하는 영역에 약 5,000개 가량의 CNV가 발견되는 등 비교적 빈번하게 발견되는 변이이나 다양한 암종과의 관련성 역시 빈번하게 보고되고 있습니다. 테라젠이텍스는 유전체의 기본 분석 결과를 기반으로 유전자 복제수 변이에 대한 정보를 제공합니다.
  • 유전자 구조 변이(SV: Structural Variation)
    앞서 설명한 유전자 복제수 변이에 따른 결실, 삽입 외에도 유전자 구조 변화를 유발하는 역위(inversion), 전좌 (translocation) 등의 변이가 존재합니다. 테라젠이텍스는 전장 유전체의 기본 분석 결과를 기반으로 다양한 구조 변이에 대한 정보를 제공합니다.
  • 이형성의 소실(Loss of Heterozygosity)
    인간 유전체의 경우, 부모로부터 물려받은 2n의 대립형질의 다양한 조합으로 인한 다양성이 발생하는 것이 통상적이나, 부 또는 모로부터 물려받은 대립 형질의 특정 영역이 소실되어 1n만으로 이루어지게 되는 현상을 이형성의 소실이라고 합니다. 특히 암 조직 내에서 이러한 이형성의 소실이 다량 발견되며 암 발생 과정과도 밀접한 관련이 있으므로 질병 유전체를 대상으로 한 분석이 필요합니다.
  • 가계도 분석(Trio Analysis)
    현재 희귀질환의 경우 약 6,000~7,000여 종으로 알려져 있는데, 이중에 병의 원인에 대해 정확이 규명된 것은 극히 일부에 불과합니다. 원인 유전자를 규명하기 위해 WES 혹은 WGS를 이용하여 유전질환을 가지고 있는 가계도를 바탕으로 환자에게서는 발견이 되나 가계도의 정상인에게서는 발견되지 않은 변이들을 대상으로 집중 연구가 진행되고 있으며, 수많은 변이들 중에 이를 규명하기 위해 변이의 기능, 서열보전정도, 일반적인 인구 집단 내에서의 빈도를 고려하여 분석을 진행하게 됩니다. 이를 위해 WES/WGS를 통해 유전질환을 앓고 있는 환자들에게 정확한 진단과 치료의 근거를 제공할 수 있습니다.
  • Insertion DNA site search and CRISPR-CAS9 Target site variant detection
    지금까지 동식물 유전체에서의 형질 전환을 위한 Genome Modification(GM)을 수행할 경우, 부작용 가능성에 대한 검증 시스템이 존재하지 않았습니다. 그러나 저희 테라젠이텍스에서는 이에 대한 검증을 위해 외래 유전자 삽입 위치를 찾는 분석 방법을 개발하였고, 이를 통하여 삽입 좌위가 기존에 존재하는 유전자의 기능을 파괴하는 지에 대한 여부와 안전하게 외래 유전자가 잘 삽입이 되었는지에 대한 검증을 수행하고 있습니다.
    또한 최근 사용자가 원하는 영역(On target site)에 Genome Editing을 할 수 있는 CRISPR라는 기술이 도입이 되어, 가이드 RNA의 염기서열을 이용하여 사용자가 원하는 영역(On target site)에 Editing을 할 수 있는 기술이 개발되었습니다. 그러나, 유사한 영역(Off target site)에서도 Editing이 되는 것으로 부작용에 대한 보고가 되고 있어, 저희 테라젠이텍스 바이오연구소에서는 이러한 문제에 대한 검증을 위해 CRISPR Target 영역에 대해서 원하는 영역(On target site)에 Editing이 잘 되는 지와 원치 않는 유사한 영역(Off target site)에는 Editing이 되지 않는 것을 확인하기 위한 검증시스템을 개발하여 분석을 수행하고 있습니다.
  • GWAS(Genome-Wide Association Analysis)
    전 게놈 연관 분석(GWAS)은 병 및 질환 그리고 약물 반응성에 대한 유전적 요인을 총체적으로 탐구하는 연구 방법을 말하며, 최근에는 동식물 육종을 위한 형질관련 요인을 탐구하는 목적으로 활용이 되고 있다. 형질의 다양성이 유전자 다형성에 그 원인이 있다는 논리를 활용해 GWAS는 질적 형질(Qualitative trait) 및 양적 형질(Quantitative trait), 유전적 다형성(SNP, InDel 등의 polymorphism)을 대상으로 분석을 수행하고 있습니다.
  • Phylogenetic and Structure Analysis
    Phylogenetic 분석은 유전적인 차이를 이용하여 진화적 경로 추적 및 품종 구분하기 위한 분석으로서, 유전학적으로 보존이 잘되어있는 단백질 서열이 바뀌는 변이를 의미하는 Non-synonymous 변이를 사용하여 진화적 경로 추적 및 품종 구분을 합니다. 저희 테라젠이텍스 바이오연구소에서는 Non-synonymous 변이들을 추출한 뒤 Multiple-alignment를 수행하고 이 결과에 따라 수학적인 계산을 통하여 계통 분석(Phylogenetic analysis) 결과를 제공해드립니다.
    Structure 분석은 대규모 SNP 유전자형 데이터에서 모집단의 구조를 유추하는 알고리즘으로서, 각 Population의 그룹을 유전적 차이로 나누는 데 적합한 분석법입니다. 테라젠이텍스 바이오연구소에서는 대량의 SNP 유전자형 데이터를 이용하여 각 집단 그룹의 유전형 분류를 수행하여 결과를 제공합니다.
  • SNP or InDel Primer Design(Excluded Repeat and multi-locus)
    유전체 분석을 통해 발굴된 SNP나 InDel 및 또 다른 Genetic Marker에 대해 PCR이나 Sanger-Seq으로 Marker 검증을 위한 Primer를 디자인하게 됩니다. 그러나, 해당 Primer가 반복서열(Repeat) 영역 및 Multi-locus에서 디자인이 되었다면 원하지 않는 영역도 PCR 및 Sanger-Seq이 되어 검증을 수행할 수 없게 됩니다. 저희 테라젠이텍스 바이오연구소에서는 대량의 Locus에 대한 Primer Design을 할 수 있는 파이프라인이 구축이 되어 있고, 반복서열(Repeat) 및 Multi-locus 검사를 통해 검증에 사용할 수 없는 primer는 제외하고 양질의 Primer Design 결과를 제공합니다.

2. Whole Genome de novo Sequencing

  • Evolution Analysis(Orthologous gene cluster, Phylogenetic analysis, Contraction & Expansion)
    진화분석(Evolution analysis)은 동식물 유전체에서 표준 유전체 분석 시 Genome Assembly 및 Genome Annotation이 완료가 되면, 통상적으로 해당 표준 유전체가 다른 종과 비교했을 때 어떤 점이 다르고 어떤 특징과 관련된 유전자를 가지고 있는지를 확인하기 위한 목적으로 활용합니다. 저희 테라젠이텍스 바이오연구소에서는 진화분석을 위해 3단계로 분석을 수행합니다. 첫 번째 단계는 다른 종의 표준 유전체 간 이종상동성유전자 군집 분석(Orthologous gene cluster)을 통하여 종 특이적이거나 공여하고 있는 유전자의 군집을 확인하는 분석을 수행하고, 두 번째 단계는 보존이 잘 되어있는 유전자를 이용하여 계통분석(Phylogenetic analysis)을 수행해 계통 간 유전적 거리를 계산을 합니다. 그리고 마지막 단계로 In-silico 기법으로 유전적 거리 및 군집의 유전자 수를 이용하여 통계적으로 군집의 확장 및 축소(Contraction & Expansion) 분석을 수행합니다.
  • Construction of Mitochondrial Genome
    진핵세포를 가지고 있는 유전체에서의 미토콘드리아 유전체(Mitochondrial genome)는 진핵세포(Eukaryote) 내에 독립적인 세포소기관으로 존재하는 미토콘드리아가 자체적으로 가지고 있는 Genome으로 핵 유전체(Nucleotide)와 마찬가지로 DNA로 이루어져 있습니다. 따라서 해당 DNA 해독을 통해 미토콘드리아 유전체 구조 확인 및 종간 계통 분석을 목적으로 미토콘드리아 유전체 조립을 할 수 있습니다. 저희 테라젠이텍스에서는 분석을 하기 위한 종의 Whole genome sequencing을 수행하여, 미토콘드리아 데이터베이스에 Homology Search를 하고, 여기서 유사도가 높은 미토콘드리아 염기 서열을 모아 조립하는 방법(Assembly)으로 미토콘드리아 유전체를 제작하게 됩니다.
  • Pan-genome Analysis
    원핵생물(prokaryote) 전장 유전체에서의 유전적 차이와 진화적 차이를 추정하기 위해서, 각 종 및 Strain 간 유전체의 Orthologous gene cluster를 추정하고 이에 대한 유전적 차이 및 기능별 유전자 Copy 수 차이로 해당 유전체의 특성을 분석합니다.
  • Polymorphic SSR Search
    동식물 유전체에서의 표현형에 대해 SSR(microsatellite)을 활용한 Marker를 찾기 위한 분석으로, 서로 다른 표현형에 대해 반복서열 모티프의 반복 수가 차이 나는 SSR의 좌위를 찾는 것이 목적입니다. NGS는 대량의 DNA 서열들을 생산할 수 있기 때문에 SSR (microsatellite) Marker를 개발 하기 위한 좋은 도구로 사용 될 수 있어, 저희 테라젠이텍스 바이오연구소에서는 DNA 서열 생산 후 In-silico 방법으로 후보 SSR Marker를 찾아 이에 대한 프라이머를 디자인을 하게 됩니다. 이때, 반복서열의 영역과 다른 영역에서의 PCR Product가 생길 수 있는 프라이머는 제거하기 때문에 성공률이 높은 SSR 후보 Marker를 찾는 분석을 수행하고 있습니다.

3. Metagenome sequencing

  • 머신 런닝(Machine learning) 기반 메타지놈 분석 Association Rule Mining
    Metagenome 분석 후 각 환경 시료별 균주들의 Proportion에 대한 기존의 분석 방법은 각 균주 별 표현형과 차이 나는 경우에만 가능하였으나, 기계 학습(Machine learning) 기법 중 Random forest 기법과 Association rule mining을 사용하여 균주 조합별 패턴의 rule을 만들어 표현형에 가까운 조합을 도출할 수 있습니다. 해당 방법은 Random forest 기법으로 표현형을 가장 잘 설명해 줄 수 있는 Taxon level을 확인한 뒤 각 균주 별 표현형과 차이 나는 균주를 Fisher’s exact test를 통하여 선별, CPAR(Classification based on Predictive Association Rules) 방법으로 균주 조합을 기계 학습시켜 최적의 균주 조합을 찾아내는 분석법입니다.
  • 프로바이오틱스 균주 리포트
    우리 몸에 유익한 프로바이오틱스(식약처 고시, 19종) 검출 유무를 확인할 수 있습니다. Metagenome 분석 이후, 각 시료 안에 각 종류의 프로바이오틱스 균주가 얼마나 존재하는지를 파악하는 분석법입니다. 저희 테라젠이텍스 바이오연구소에서는 프로바이오틱스 균주들에 대한 프로파일링 정보를 리포트 형태로 제공하고 있습니다.

4. RNA-Sequencing

  • 융합 유전자(Fusion Gene)
    생산된 리드 중 유전자 A와 유전자 B의 접합 영역에 대한 정보를 포함하는 리드를 기반으로 융합 유전자를 도출합니다. 암 발생 과정의 주요 인자로 작용하는 융합 유전자를 효율적으로 도출하기 위한 다양한 툴들이 존재하지만 단일 툴만으로는 높은 정확도를 얻기가 어려우므로 2개 이상의 다양한 툴을 적용한 결과를 다각적으로 분석하여 융합 유전자를 최종 도출합니다.
  • Variant
    DNA 내에 존재하는 변이는 RNA로 전사된 이후에도 발견되므로 유전체 분석과 마찬가지로 RNA 내에 존재하는 변이 정보를 분석할 수 있습니다. 이에 Samtools 툴을 활용하여 RNA-Seq 데이터 내에서 발견되는 변이 정보를 분석할 수 있습니다.
  • Gene Set Enrichment Analysis(GSEA)
    브로드 연구소에서 개발한 GSEA 툴을 사용하여 특정 표현형 샘플들에서 유전자의 발현차와 함께 많이 관여하는 기능을 예측합니다. 유의 유전자만을 대상으로 하는 분석법과는 다르게 전체 유전자의 발현값을 대상으로 분석하므로 유의 유전자가 적게 도출되는 조건에서 유전자 기능을 분석하기에 적합한 툴입니다.
  • Pathway 분석
    특정 조건에서 유의한 발현 변화를 보이는 유의 유전자들이 특정 pathway에 관여하는지 여부를 분석합니다. 대표적으로 많이 사용되고 있는 KEGG pathway의 경우, 라이선스를 확보하신 연구자를 대상으로 중요한 pathway 분석을 제공할 수 있습니다.
  • Tissue Specific Gene Search
    3개 이상의 샘플 중 특정 샘플에서만 특이적으로 발현되는 유의 유전자들을 예측합니다. 다양한 차등 발현 유전자 연구들 중 특정 조직 혹은 특정 발달 단계에서만 발현하는 유전자를 선별하기에 적합한 분석법입니다.
  • Heatmap 분석
    유의 유전자의 발현 패턴을 효과적으로 가시화하기 위한 방법 중 한 가지로 Heatmap 분석이 가능합니다. 유전자의 발현 패턴의 유사성을 기반으로 유사 유전자 그룹을 묶는 1-way Hierarchical Clustering 또는 샘플 유사성에 따른 샘플 그룹까지 제공하는 2-way Hierarchical Clustering을 제공하며 이러한 Clustering 패턴을 Heatmap으로 효율적으로 가시화하여 제공합니다.
  • Time-Series 분석
    시 계열 데이터인 경우, 각 시간대에 따른 유전자의 발현 변화를 '증가, 변화 없음, 감소'의 3개 그룹으로 나눠 제공합니다. 각 그룹의 대표적인 기능을 이해하기 위해 그룹 내 유전자를 대상으로 Gene Ontology 분석을 수행하여 연구자의 이해를 돕습니다.

5. mRNA-miRNA 통합 분석

  • 유의 miRNA의 타깃 유전자에 대한 발현 결과가 있다면 miRNA 발현과 유전자 발현 간 Opposite Direction으로 Correlation을 보이는 miRNA 및 유전자에 한해서 통합 분석 결과를 제공합니다.

6. 신생항원(Neo-Antigen) 예측 분석

  • 2018년 제임스 엘리슨 박사와 타스쿠 혼조 박사가 면역관문억제제 개발로 노벨생리·의학상을 수상한 이래, 3세대 면역항암제가 큰 화두가 되고 있습니다. 다양하게 제시되고 있는 면역치료기법 중 하나로, 환자 암 조직 내 존재하는 변이, 즉 신생항원(Neo-Antigen)으로 환자의 면역 체계를 자극하여 암을 치료하는 암 백신 치료가 대두되고 있습니다.
  • 신생항원을 예측하기 위해서는 각 환자의 정상 및 암 조직으로부터 NGS 기반으로 WES(Whole Exome Sequencing)과 RNASeq 데이터를 생산합니다. 이후, 암 조직 특이적으로 발견되는 변이를 동정하고 해당 변이가 RNA로 실제 발현되는 것을 확인하여 신생항원의 후보를 선정합니다. 선정된 신생항원 후보에 대하여 각 환자의 예측된 HLA과 높은 결합력을 가질 것으로 예상되는 변이를 선택하여 최종적으로 신생항원의 후보로 제공합니다.