平臺論壇博客文庫

› 論壇 › 程序設(shè)計 › Perl › 求解，對于大文件應(yīng)該怎樣處理

求解，對于大文件應(yīng)該怎樣處理 [復(fù)制鏈接]

raoweijian

白手起家

論壇徽章:: 0

電梯直達

1樓 [收藏(0)] [報告]

發(fā)表于 2013-09-22 12:26 |只看該作者 |倒序瀏覽

現(xiàn)在有記錄SNP信息的文件，第一列表示染色體，第二列表示在染色體上的位點，第三列表示參考基因組上的堿基，第四列表示該樣本的堿基。
這樣的文件有三個，表示三個樣本。現(xiàn)在需要根據(jù)這三個文件，生成genotype文件，第一列表示染色體，第二列表示位點，第三列表示參考基因組上的堿基，后面每列表示一個樣本在該位點的堿基。
現(xiàn)在的問題主要是，比如在A樣本中，1號染色體第250個位點上有一個SNP，在另外兩個樣本的SNP文件中，沒有記錄該位點，現(xiàn)在需要確認是因為該位點與參考基因組相同，還是測序的時候沒有測到這個位點，就需要到該樣本的baseinfo文件中找到對應(yīng)的位點，然后看第14列是否為0，如果小于3（很多為0的表示沒測到），表示沒測到這個點或者結(jié)果不可靠，那么在genotype中以“--”表示，如果大于3，則表示結(jié)果可靠，測到了該位點，則以實際的堿基記錄下來。
現(xiàn)在每個樣本的baseinfo文件大約有5G，5000萬行左右。
SNP文件有50萬行，應(yīng)該怎么處理這樣的情況呢？
如果用hash，則內(nèi)存占用太大了，完全不能跑完。

1.jpg (97.08 KB, 下載次數(shù): 17)

snp

2.jpg (87.42 KB, 下載次數(shù): 17)

baseinfo

3.jpg (46.38 KB, 下載次數(shù): 18)

genytype

文庫|博客

使用正則表達式與lex實現(xiàn)詞法分析器
C語言的MIPS匯編實現(xiàn)（四）SWITCH
Requested init /linuxrc failed (error -2).
比較 csv 文件中數(shù)據(jù)差異
LMD ElPack v2019.7新版亮點：Transparent mode全新升級|附下載

返回列表

Chinaunix › 論壇 › 程序設(shè)計 › Perl › 求解，對于大文件應(yīng)該怎樣處理

積分 0, 距離下一級還需積分

亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

求解，對于大文件應(yīng)該怎樣處理 [復(fù)制鏈接]

求解，對于大文件應(yīng)該怎樣處理 [復(fù)制鏈接]