亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
最近訪問板塊 發(fā)新帖
查看: 11294 | 回復: 6
打印 上一主題 下一主題

python 按列名提取多列 [復制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報告]
發(fā)表于 2016-08-16 05:04 |只看該作者 |倒序瀏覽
本帖最后由 小風0000 于 2016-08-16 05:07 編輯
  1. dat='''
  2. SNPID A702Y A704Y A706Y A708Y A710Y
  3. ARS-BFGL-BAC-10172 CC CC CC CC CC
  4. ARS-BFGL-BAC-1020 CC CC CT CC CC
  5. '''

  6. names=["SNPID","A702Y","A710Y"]
復制代碼
由于數(shù)據(jù)比較大,有4萬行,7000列,要提出800列的數(shù)據(jù),大家有什么好的辦法嗎?

  1. script,originalFN,targetFN = sys.argv
  2. originalInds = open(originalFN).readline().strip().split()
  3. targetInds = [line.strip() for line in open(targetFN)]
  4. targetF=open("targetInds.txt","w")

  5. #find index
  6. idx = [ originalInds.index(ind) for ind in targetInds if ind in originalInds ]
  7. idx.insert(0,0)

  8. #output
  9. for num,line in enumerate(open(originalFN)):
  10.     print num
  11.     tmp = [line.strip().split()[i] for i in idx]
  12.     targetF.write(" ".join(tmp)+"\n")

  13. targetF.close()
復制代碼
這是我寫的代碼,先取出列名的下標,再在大文件一行行弄出來,有點慢,求助!

論壇徽章:
0
2 [報告]
發(fā)表于 2016-08-16 10:36 |只看該作者
你可以用pandas庫,都有封裝

論壇徽章:
0
3 [報告]
發(fā)表于 2016-08-16 12:02 |只看該作者
回復 2# 吃瓜群眾

不行啊,直接報錯,out of memory。文件太大了,有沒有什么更好的辦法?

   

論壇徽章:
0
4 [報告]
發(fā)表于 2016-08-16 14:33 |只看該作者
回復 3# 小風0000
你可以把大文件分成小文件處理,最后再歸并。

   

論壇徽章:
0
5 [報告]
發(fā)表于 2016-08-16 23:20 |只看該作者
回復 4# 吃瓜群眾

不應該啊,我用python就想著處理大文件方便,要是分成小文件,我還不如用R處理。
肯定有更簡單,高效地寫法吧!

   

論壇徽章:
11
2015年迎新春徽章
日期:2015-03-04 09:55:282017金雞報曉
日期:2017-02-08 10:39:4215-16賽季CBA聯(lián)賽之遼寧
日期:2016-12-15 10:24:1715-16賽季CBA聯(lián)賽之佛山
日期:2016-11-30 09:04:2015-16賽季CBA聯(lián)賽之江蘇
日期:2016-04-29 15:56:1215-16賽季CBA聯(lián)賽之同曦
日期:2016-04-12 13:21:182016猴年福章徽章
日期:2016-02-18 15:30:3415-16賽季CBA聯(lián)賽之山東
日期:2016-02-16 11:37:52每日論壇發(fā)貼之星
日期:2016-02-07 06:20:00程序設計版塊每日發(fā)帖之星
日期:2016-02-07 06:20:0015-16賽季CBA聯(lián)賽之新疆
日期:2018-01-09 16:25:37
6 [報告]
發(fā)表于 2016-08-18 08:24 |只看該作者
對于這樣的情況,一定要用到mmap才行

論壇徽章:
0
7 [報告]
發(fā)表于 2016-09-19 00:55 |只看該作者
#output
num = 0
for line in open(originalFN).xreadlines() :
    num += 1
    print num
    tmp = [line.strip().split()[i] for i in idx]
    targetF.write(" ".join(tmp)+"\n")
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP