有關於定序-The history of Sequencing

有關於定序-The history of Sequencing
Photo by Ashraful Islam / Unsplash

繼上一篇雜談的時候忘記介紹自己的背景,我大學背景是動物科學,碩士之後轉為演化生物學/族群遺傳學,博士也是演化生物學/族群遺傳學,由於演化生物學也需要大量的寫code和programming 訓練,也必須了解如何分析NGS 資料,於是發現自己對建立pipeline很有興趣。

在博士後的幾年裡,並沒有刻意往演化生物學或族群遺傳學研究主題發展,所以雖然研究的物種不大相同,但共同點就是要建立pipeline來完成各種分析目標。回想在初次接觸生物資訊時,是從什麼是NGS開始了解,NGS(Next Generation Sequencing)的發展歷史,以及背後的技術都是在開始做生資之前需要準備的功課,畢竟現在技術越來越進步,但萬變不離其宗,先瞭解基本的,才有辦法往更深入的主題前進。

現在講到的定序,大部分都會指"NGS",也就是次世代定序。
在次世代定序的方法問世之前,雖然在1964年 Robert Holley 是第一個使用酵母來定序DNA,但真正影響定序方法進步的就是Fredrick Sanger 所提出的 chain termination-based sequencing又稱為Sanger sequencing。而Sanger提出的定序方法被當時許多定序機器應用,是第一代定序的開端。

圖一 定序技術的演進。(ref2)

第一代定序ABI370是第一批商業化的自動定序機器,在1987年美國推出,該機器使用螢光標記的二氧去氧核苷酸和毛細管電泳(capillary electrophoresis)來自動化桑格测序方法,顯著提高了DNA测序的速度和準確性。

次世代(NGS)的稱呼是從2005年開始,稱為次世代的原因是因為分析序列的機器開始能快速並且讀取大量的序列內容(from 1GB - 1000GB),當時Roche’s 454 sequencing, Ion Torrent sequencing 以及 Illumina 的定序機器被研發出來。每個定序平台所使用的定序方法都不同,有興趣了解更多請看ref2, table1.

這裡以最被廣泛使用的Illumina來做介紹,Illumina使用sequencing-by-synthesis method,Illumina 的定序方式可以拆解為四個部分,1.) library preparation 2.) cluster 3.) sequencing 4.) analysis

在library準備階段,會 Genome DNA 片段拆解為小片段,並且另外再接上adapter和 Illumina 所設計的片段可以和 flow cell 表面結合。而cluster則是做『Bridge PCR 』,其原理是,當片段連結在flow cell表面時,為了要能讀取另一端的DNA資訊(pair-end),以及放大讀取資訊的強度(cluster),經過這階段之後,片段已經準備好定序,下一步就是定序,dNTP所提供的A,T,C,G各有不同的螢光連結,在定序過程中會與片段上的鹼基對做結合,當結合之後,螢光會被雷射激發,而顯示出不同顏色的螢光,電腦收到訊號後,就能讀取片段資訊。

最後,也就是我們之後會用到的分析資料- 序列資訊產出,而生物資訊分析也就從這裡真正開始。之後我會再分享一些常用的序列分析pipeline和分析工具。

圖二 Illumina定序流程

另外再補充其實現在也已經有所謂的「第三代定序」,和第二代最大的差異也就是能夠定序長片段,其片段能定序到平均10,000– 30,000bp, 目前Nanopore DNA sequencing是已知能定序最長的定序平台。

最後,想梳理一下現在很常被使用的定序方法以及應用。最常見到的莫過於Whole genome sequencing (WGS), Whole exome sequencing (WES), RNA-seq, CHIP-seq, ATAC seq ...etc. WGS可以提供細節的資訊,像是所有的基因,調節區域,非coding區域,可以使用在發言或是研究新的物種或是疾病。而其也很常被應用在族群遺傳學領域中,因為WGS能夠識別從單核苷酸多態性(SNP)到基因組結構變化(如插入、刪除和重排)的遺傳變異。

WES就是針對protein-coding區域,也就是和基因以及蛋白質直接相關的區域- Exome,此區域大約佔1-2% (所有的Genome區域)。WES可以增加分辨Genetic variations 例如說:single-nucleotide variants (SNVs), insertion, deletion, copy number variations (CNVs)。通常分析WGS和WES的方法是一樣的,能分析WGS的分析流程也可以套用在WES上。

RNA-seq則是專門分析轉錄組,包括分析研究基因表現,​或是發現新的轉錄組,又或是alternative splicing events,RNA-seq研究分析目標可以是組織或是細胞(Single-Cell RNA-seq)。 若是研究Epigenomics,則包括檢測甲基化(Methyl-seq)、ATAC-seq以及ChIP-seq。依據研究主題以及研究目標而選擇其他定序方法(圖三)

圖三 不同次世代定序方式應用

由於次世代定序方法很多, 一個方法就能寫一篇文章,所以在這篇比較『general』的文章就沒有更深入的討論,但如果想看細節,非常推薦閱讀 ref2,這篇文獻整理出近代常用的定序以及應用,如目前很常見的有WGS, WES, array genotyping, RNA-seq, ATAC-seq...下一篇文章我會以常見的資料格式介紹,像是fasta, vcf, bam等等,感謝有機會閱讀到這裡的大家,最近我有在Github上分享我自己做的pipeline (PRS, RNA-seq)為主,之後有機會也會把pipeline分享在blog上。

Ref:

  1. https://en.wikipedia.org/wiki/Sanger_sequencing
  2. Heena Satam et al. Next-Generation Sequencing Technology: Current Trends and Advancements Biology 202312(7), 997; https://doi.org/10.3390/biology12070997
  3. Illumina - An introduction of Next Generation Sequencing technology: https://www.illumina.com/content/dam/illumina-marketing/documents/products/illumina_sequencing_introduction.pdf