魔球 (Moneyball) ,計算生物學家的第一本書

money-ball-2

一年一度的奧斯卡頒獎典禮即將在明天早上 (2/27) 舉行。由布萊德彼特(Brad Pitt) 主演的同名小說改編電影–魔球「Moneyball」,囊括了最佳影片、最佳男主角等六項提名。

魔球,是一個很棒的棒球故事:一個職棒球團的經理人,利用有限的預算,透過分析選手賽事的統計數據,打造了一支戰績媲美口袋深厚的球隊。這個故事延伸了部落客 Mr. JamieXDite 對於創業或經營者的啟發。除此之外,美國加州大學柏克萊分校 (UC Berkeley) 的Michael Eisen 與舊金山分校 (UCSF) 的James Fraser建議:想要成為計算生物學家,魔球是最合適不過的開始。

在以下這段短片中,這兩位棒球迷一致認為:研究棒球與計算生物學有一些有趣的共通點。

棒球與計算生物學都利用數據預測

他們舉例,以棒球而言,如果想預估一位28歲的選手今年全壘打的表現,可以根據以「類似的球員在過去27~28歲時的全壘打數」所建立的模型,預測這位選手今年將會擊出多少支全壘打。同理,要如何預測一個蛋白質(A) 的未知功能?簡單來說,我們可以利用 BLAST 軟體比對氨基酸(amino acid)序列,找出跟蛋白質(A)序列最相似的蛋白質(B)。如果,兩者在某些特定區段的序列 (motif) 是相似或相同的。蛋白質(A)很有可能也具有類似蛋白質(B)的功能。 他們也提到,藉由比較,可以找到可能發生的問題。

以棒球而言,比較某位選手例年來的成績,或許可以發現,腳傷問題就是造成在某個時段表現下滑的原因。相同的,許多疾病是經由基因突變或是出現錯誤的序列所造成。比對正常人與帶有疾病者的基因或蛋白質序列,可以找到可能導致疾病的突變基因或錯誤序列的位置。如下圖,他們還將研究棒球與蛋白質的邏輯作了這樣的對應。

棒球與計算生物學都需要更新的工具研究爆炸性成長的數據

棒球的統計數據量隨著球季不斷地成長。同時,也有更多的科技被應用在分析球員的表現。如以下兩張圖,利用影像追蹤軟體的數據,可以幫助投手或打者了充分解自己的優缺點,調整姿勢及角度,提昇未來上場的表現。

而蓬勃發展以及成本不斷降低(如下表)的基因序列分析技術,讓我們能夠以更短的時間,定序任何含有DNA的採集樣品。隨之而來的是面對這些爆炸性成長數據儲存、運算及管理的挑戰。發展更有效率的新方法或工具,是新興的計算生物學領域的任務之一。雖然有些新方法或工具不是完美的,甚至可能是更糟的。但是,更重要的是,我們可以從中學習如何作得更好。

最後,他們提及經常被問的問題:「如何成為一個傑出的計算生物學家?」。他們幽默地以「要成為一個計算生物學家,應該先讀那些書?」提出建議:不要急著去讀「分子生物學」、「程式語言」還有「微積分」等教科書,而是以下兩本有關棒球的書,其中一本正是「魔球」。這兩本書也是他們開給大一新生的教材,因為「棒球統計學」與計算生物學背後有著太多相似的思考邏輯。

如果你也想當一位計算生物學家,先看這本小說或是這部電影吧!

影片來源: ibiomagazine

留言

留言