【GEO資料庫】
簡介:
GEO資料庫是NCBI資料庫下面專門儲存基因晶片數據和高通量定序數據的一個子資料庫。一般發表研究論文時高通量定序數據都需要提交到該資料庫,文章發表之後這部分的數據都是公開的,因此讀者可以從別人已經發表的ChIP-Seq數據中查看目標蛋白質在基因體上豐富的區域。
實例:
在本案例中,我們首先需要在GEO資料庫中查找文章中高通量定序數據的相關記錄 。高通量定序數據提交到GEO資料庫之後會分配一個GSE編號,在撰寫論文過程中需要在文章中描述定序數據的GEO資料庫編號。一般在文章的結尾或者方法部分會有這條相關記錄。我們以Richard A. Young教授團隊2013年發表的Cell關於Super enhancer的文章為例。
在上述文章中我們找到定序數據GSE編號為:GSE51522。
我們也可以在NCBI Pubmed資料庫中查詢對應的文章,然後點開網頁右側GEO資料庫的連結,跳轉到GEO資料庫中對應的數據。
然後我們在GEO資料庫根據該編號查找相關數據。
GEO資料庫會記錄高通量數據相關的背景,實驗設計,物種訊息,樣本的處理過程,定序的平台訊息和定序模式,數據分析過程中使用的軟件和基因體註釋檔案訊息。我們一定要注意作者分析數據過程中選擇的基因體版本訊息,不同版本分析結果的座標不一樣。我們在接下來使用UCSC genome browser資料庫時基因體版本訊息一定要選擇和GEO資料庫中一致。
在同一個頁面的下半部分,我們可以看到作者提交了多組不同的ChIP-Seq數據和RNA-Seq數據。在本案例中我們選擇組蛋白H3K27ac ChIP-Seq數據作為例子。
點開GSM1246865連結進入H3K27ac ChIP-Seq數據詳細頁面,我們可以看到更多的訊息,紅色標記的都是比較關鍵的訊息。
我們可以看到在這個案例中,作者分析數據採用的人類基因體hg19版本。
在網頁的下面,我們可以找到ChIP-Seq比對基因體之後生成的WIG格式的檔案。這個FTP和HTTP連結就是我們在GEO資料庫中最終需要查找的內容。找到這個連結之後GEO資料庫部分告一段落,我們可以將這個連結複製黏貼保存,接下來在UCSC genome browser資料庫中我們會用到這個連結。
下一步我們打開UCSC genome browser資料庫(https://genome.ucsc.edu),選擇網頁上方的 “Genome Browser” 連結。
打開Genome browser網頁之後我們可以看到如下界面,然後選擇界面下方 “manage custom tracks” 。 UCSC genome browser每一行基因體訊息稱為一個track,有的tracks記錄的是基因的座標訊息,有的tracks記錄的是SNPs位點訊息等,我們在本案例中不詳述。 “manage custom tracks” 可以讓我們自由編輯自己想要查看的基因體相關訊息,可以提交自己分析之後的結果,也可以像我們本案例中展示的提交其他資料庫(如GEO資料庫)中儲存的數據。
進入到Add Custom Tracks界面之後,我們一定要記得選擇正確的物種和基因體註釋檔案。然後我們將GEO資料庫中最後找到的FTP或者HTTP連結黏貼到對話框中。然後點 “submit”
數據提交成功之後會顯示如下界面,點 “go”
“Jurkat_treat_all” track就是H3K27ac ChIP-Seq 峰圖結果(如下圖),我們可以選擇自己感興趣的區域,滑動鼠標進一步放大,也可以在網頁上方的對話框中輸入基因名或者基因體座標訊息,跳轉到相應的區域。
高亮區域就是我們希望放大之後進一步查看的區域。
下圖顯示我們選擇的TNFSF10基因的啟動子區域有一個明顯的H3K27ac peaks,我們可以選擇網頁上方View->DNA,點擊進入下一個界面,得到我們選擇區域DNA的序列訊息。
點擊 “get DNA” 查看DNA序列訊息。
我們最終得到的DNA序列訊息,讀者也可以選擇自己感興趣的基因或者區域,查看對應的DNA序列訊息。得到DNA序列訊息之後我們就可以按照常規的引子設計流程設計ChIP實驗的引子。
我們推薦大家設計ChIP引子長度18-22nt,擴增產物長度在100-200bp,GC含量在40-60%,Tm值在55-65°C。
磷酸化蛋白大補丸
簡介:
UCSC genome browser資料庫是由美國加州大學聖克魯茲分校維護,儲存了人,小鼠,大鼠等多個物種不同版本的基因體訊息。通過該資料庫我們可以很方便的查看常見物種基因體不同基因的座標訊息,基因可變剪接模式,外顯子和內含子訊息,基因體上的突變訊息,保守序列等。
UCSC genome browser資料庫是由美國加州大學聖克魯茲分校維護,儲存了人,小鼠,大鼠等多個物種不同版本的基因體訊息。通過該資料庫我們可以很方便的查看常見物種基因體不同基因的座標訊息,基因可變剪接模式,外顯子和內含子訊息,基因體上的突變訊息,保守序列等。
實例:
在本案例中,我們首先需要在GEO資料庫中查找文章中高通量定序數據的相關記錄 。高通量定序數據提交到GEO資料庫之後會分配一個GSE編號,在撰寫論文過程中需要在文章中描述定序數據的GEO資料庫編號。一般在文章的結尾或者方法部分會有這條相關記錄。我們以Richard A. Young教授團隊2013年發表的Cell關於Super enhancer的文章為例。
在上述文章中我們找到定序數據GSE編號為:GSE51522。
我們也可以在NCBI Pubmed資料庫中查詢對應的文章,然後點開網頁右側GEO資料庫的連結,跳轉到GEO資料庫中對應的數據。
點開GSM1246865連結進入H3K27ac ChIP-Seq數據詳細頁面,我們可以看到更多的訊息,紅色標記的都是比較關鍵的訊息。
在網頁的下面,我們可以找到ChIP-Seq比對基因體之後生成的WIG格式的檔案。這個FTP和HTTP連結就是我們在GEO資料庫中最終需要查找的內容。找到這個連結之後GEO資料庫部分告一段落,我們可以將這個連結複製黏貼保存,接下來在UCSC genome browser資料庫中我們會用到這個連結。
打開Genome browser網頁之後我們可以看到如下界面,然後選擇界面下方 “manage custom tracks” 。 UCSC genome browser每一行基因體訊息稱為一個track,有的tracks記錄的是基因的座標訊息,有的tracks記錄的是SNPs位點訊息等,我們在本案例中不詳述。 “manage custom tracks” 可以讓我們自由編輯自己想要查看的基因體相關訊息,可以提交自己分析之後的結果,也可以像我們本案例中展示的提交其他資料庫(如GEO資料庫)中儲存的數據。
我們最終得到的DNA序列訊息,讀者也可以選擇自己感興趣的基因或者區域,查看對應的DNA序列訊息。得到DNA序列訊息之後我們就可以按照常規的引子設計流程設計ChIP實驗的引子。
我們推薦大家設計ChIP引子長度18-22nt,擴增產物長度在100-200bp,GC含量在40-60%,Tm值在55-65°C。
推薦你更多技術好文:
Western Blot精華寶典磷酸化蛋白大補丸
沒有留言:
張貼留言