Bioinfromatics

A collection of 3 posts
常見NGS分析相關檔案格式- Common NGS data analysis-related files
Bioinfromatics

常見NGS分析相關檔案格式- Common NGS data analysis-related files

這邊會以NGS常出現的檔案來介紹: fasta, FASTQ, sam, bam, bai, bed, bim, fam, vcf, bcf, gff/gtf, GWAS summary statistics. fasta 最常見的就是 - fasta file或是 fasta 是最常見的NGS sequencer 輸出檔案。 fasta 檔案中一定是以 ">"開頭,在 ">"後可以打上sample名稱或是基因名稱,換行之後,就是核苷酸或是蛋白質序列資訊,結尾有可能會是".fa", ".fas"或".fasta"。 >
6 min read
有關於定序-The history of Sequencing
Bioinfromatics

有關於定序-The history of Sequencing

繼上一篇雜談的時候忘記介紹自己的背景,我大學背景是動物科學,碩士之後轉為演化生物學/族群遺傳學,博士也是演化生物學/族群遺傳學,由於演化生物學也需要大量的寫code和programming 訓練,也必須了解如何分析NGS 資料,於是發現自己對建立pipeline很有興趣。 在博士後的幾年裡,並沒有刻意往演化生物學或族群遺傳學研究主題發展,所以雖然研究的物種不大相同,但共同點就是要建立pipeline來完成各種分析目標。回想在初次接觸生物資訊時,是從什麼是NGS開始了解,NGS(Next Generation Sequencing)的發展歷史,以及背後的技術都是在開始做生資之前需要準備的功課,畢竟現在技術越來越進步,但萬變不離其宗,先瞭解基本的,才有辦法往更深入的主題前進。 現在講到的定序,大部分都會指"NGS",也就是次世代定序。 在次世代定序的方法問世之前,雖然在1964年 Robert Holley 是第一個使用酵母來定序DNA,但真正影響定序方法進步的就是Fredrick Sanger 所提出的 chain termination-based sequencing又稱為San
6 min read
Bioinformatics for beginners-有關生物資訊初學者雜談
Bioinfromatics

Bioinformatics for beginners-有關生物資訊初學者雜談

我第一次接觸生物資訊是在博士班開始的時候,而且我是完全沒有接觸過寫程式的新手。我那時剛接觸的時候,所謂萬事起頭難,最困難的也是最挫折的應該是連問問題都有點沒辦法。 因為對一個完全新的事物,大概連要怎麼google答案都會有點障礙,所以我當時的學習方式其實有點傻,就是一行一行把code丟上google搜尋,尋找每一個function的使用方式。 當時學習生物資訊的時候,覺得有些可惜就是中文資料並沒有像英文一樣充足,雖然英文閱讀上並不是什麼障礙,但我個人有遇過英文都看得懂,痛苦的是無法理解其中到底代表什麼意義。 所以,我會以個人學習的歷程分享和生物資訊相關的文章。 我最常使用的就是Python , R 而文章分享也會以這兩種語言為主。 在分享過程中,也想順便重新複習那些我曾學過的分析(GATK, RNA-seq, PRS analysis, visualization)。 這裡可以先給一些我認為對生物資訊新手有幫助的網站: 1) stackoverflow : https://stackoverflow.com/ 2) biostars: https://www.biostars.
2 min read