亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費(fèi)注冊(cè) 查看新帖 |

Chinaunix

  平臺(tái) 論壇 博客 文庫
最近訪問板塊 發(fā)新帖
查看: 6384 | 回復(fù): 4
打印 上一主題 下一主題

python 大文件去重問題 [復(fù)制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報(bào)告]
發(fā)表于 2015-11-20 23:45 |只看該作者 |倒序?yàn)g覽
本帖最后由 yhizyh 于 2015-11-20 23:46 編輯

今天遇到一個(gè)問題,處理幾個(gè)大文件,1個(gè)文件為2G ,1個(gè)文件大小為  4G,我看了一下里面數(shù)據(jù)條數(shù)是129115369 條,現(xiàn)在這些數(shù)據(jù)有很多都是重復(fù)的,不是逐行重復(fù),不一定那條和那條重復(fù),我要去掉重復(fù)數(shù)據(jù),可是用了set 、sort都不能正常處理這個(gè)文件,肯定不是我程序的問題,同樣內(nèi)容的文件我處理800-900M都可以,就是2個(gè)特大的處理不了。所以請(qǐng)教一下對(duì)于這種特大文件有什么辦法沒有。謝謝了

-rw-rw-r-- 1 root root 2.7G 11月 20 21:24 f10.txt
-rw-rw-r-- 1 root root 4.6G 11月 20 22:40 f11.txt
-rw-rw-r-- 1 root root  65M 11月 20 20:33 f6.txt
-rw-rw-r-- 1 root root 218M 11月 20 20:34 f7.txt
-rw-rw-r-- 1 root root 604M 11月 20 20:38 f8.txt
-rw-rw-r-- 1 root root 1.4G 11月 20 20:51 f9.txt
-rw-r----- 1 root root  838 11月 20 22:50 RemoveSimilar.py

目前就是兩個(gè)最大的文件處理不了。
通過list(set())方法處理的部分代碼
  1. def modi_File(filename):
  2.     sFile="out/"+filename
  3.     oFile="out1/"+filename
  4.     fp = file(sFile,"r")
  5.     lines = fp.readlines()
  6.     fp.close()
  7.     index =0
  8.     count =len(lines)
  9.     while index<count:
  10.         lines[index]=lines[index].strip("\n")
  11.         index +=1
  12.     flines=list(set(lines))
  13.     fp_w=file(oFile,"w")
  14.     count=0
  15.     for line in flines:
  16.         fp_w.write(str(line)+"\n")
  17.         count +=1
  18.     fp_w.write("數(shù)據(jù)總量:%s"%count)
  19.     fp_w.close()
復(fù)制代碼

論壇徽章:
26
2015亞冠之胡齊斯坦鋼鐵
日期:2015-06-25 21:40:202015亞冠之柏斯波利斯
日期:2015-08-31 17:03:192015亞冠之柏斯波利斯
日期:2015-11-07 13:10:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-11-10 06:20:00每日論壇發(fā)貼之星
日期:2015-11-10 06:20:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-11-26 06:20:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-12-02 06:20:00黃金圣斗士
日期:2015-12-07 17:57:4615-16賽季CBA聯(lián)賽之天津
日期:2015-12-23 18:34:14程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2016-01-02 06:20:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2016-01-06 06:20:00每日論壇發(fā)貼之星
日期:2016-01-06 06:20:00
2 [報(bào)告]
發(fā)表于 2015-11-21 10:13 |只看該作者
我是小白
還請(qǐng)前輩多多指導(dǎo)。
  1. #!/usr/bin/python2
  2. # coding: utf-8


  3. def modi (filename):
  4.     IN    = '/tmp/' + filename        # "out/" + filename
  5.     OUT   = '/tmp/' + '_' + filename  # "out1/" + filename
  6.     fhi   = open (IN)
  7.     fho   = open (OUT, 'w')
  8.     uniq  = set ()
  9.     count = 0

  10.     for line in fhi:
  11.         if line in uniq: continue
  12.         uniq.add (line)
  13.         count += 1
  14.         fho.write (line)

  15.     fho.write ("數(shù)據(jù)總量:%s" % count)
  16.     fhi.close ()
  17.     fho.close ()


  18. modi ('xyz')
復(fù)制代碼

論壇徽章:
0
3 [報(bào)告]
發(fā)表于 2015-11-21 15:05 |只看該作者
回復(fù) 2# substr函數(shù)


    太棒了,上次也是麻煩您了。非常感謝。

論壇徽章:
0
4 [報(bào)告]
發(fā)表于 2016-04-05 16:36 |只看該作者
回復(fù) 1# yhizyh
這樣的問題,不用編程,用UNIX命令
  1. cat filename | sort | uniq
復(fù)制代碼

論壇徽章:
4
程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-10-14 06:20:00每日論壇發(fā)貼之星
日期:2015-10-14 06:20:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2016-05-02 06:20:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2016-05-08 06:20:00
5 [報(bào)告]
發(fā)表于 2016-04-19 14:15 |只看該作者
問題出在這一行代碼上
  1. lines = fp.readlines()
復(fù)制代碼
您需要登錄后才可以回帖 登錄 | 注冊(cè)

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號(hào)-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號(hào):11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報(bào)專區(qū)
中國互聯(lián)網(wǎng)協(xié)會(huì)會(huì)員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請(qǐng)注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP