亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

<sub id="0ksjz"></sub>

<tr id="0ksjz"></tr>

<abbr id="0ksjz"><tt id="0ksjz"></tt></abbr>

<p id="0ksjz"><strike id="0ksjz"></strike></p>

免費(fèi)注冊(cè)	查看新帖 \|


平臺(tái) 論壇博客文庫

› 論壇 › 程序設(shè)計(jì) › Python › python 大文件去重問題

最近訪問板塊

發(fā)新帖

查看: 6384 | 回復(fù): 4

上一主題

下一主題

python 大文件去重問題 [復(fù)制鏈接]

論壇徽章:: 0

電梯直達(dá)

跳轉(zhuǎn)到指定樓層

1樓 [收藏(0)] [報(bào)告]

發(fā)表于 2015-11-20 23:45 |只看該作者 |倒序?yàn)g覽

本帖最后由 yhizyh 于 2015-11-20 23:46 編輯

今天遇到一個(gè)問題，處理幾個(gè)大文件，1個(gè)文件為2G ，1個(gè)文件大小為  4G，我看了一下里面數(shù)據(jù)條數(shù)是129115369 條，現(xiàn)在這些數(shù)據(jù)有很多都是重復(fù)的，不是逐行重復(fù)，不一定那條和那條重復(fù)，我要去掉重復(fù)數(shù)據(jù)，可是用了set 、sort都不能正常處理這個(gè)文件，肯定不是我程序的問題，同樣內(nèi)容的文件我處理800-900M都可以，就是2個(gè)特大的處理不了。所以請(qǐng)教一下對(duì)于這種特大文件有什么辦法沒有。謝謝了

-rw-rw-r-- 1 root root 2.7G 11月 20 21:24 f10.txt
-rw-rw-r-- 1 root root 4.6G 11月 20 22:40 f11.txt
-rw-rw-r-- 1 root root  65M 11月 20 20:33 f6.txt
-rw-rw-r-- 1 root root 218M 11月 20 20:34 f7.txt
-rw-rw-r-- 1 root root 604M 11月 20 20:38 f8.txt
-rw-rw-r-- 1 root root 1.4G 11月 20 20:51 f9.txt
-rw-r----- 1 root root  838 11月 20 22:50 RemoveSimilar.py

目前就是兩個(gè)最大的文件處理不了。
通過list(set())方法處理的部分代碼

def modi_File(filename):
sFile="out/"+filename
oFile="out1/"+filename
fp = file(sFile,"r")
lines = fp.readlines()
fp.close()
index =0
count =len(lines)
while index<count:
lines[index]=lines[index].strip("\n")
index +=1
flines=list(set(lines))
fp_w=file(oFile,"w")
count=0
for line in flines:
fp_w.write(str(line)+"\n")
count +=1
fp_w.write("數(shù)據(jù)總量：%s"%count)
fp_w.close()

復(fù)制代碼

文庫|博客

使用正則表達(dá)式與lex實(shí)現(xiàn)詞法分析器
C語言的MIPS匯編實(shí)現(xiàn)（四）SWITCH
Requested init /linuxrc failed (error -2).
比較 csv 文件中數(shù)據(jù)差異
LMD ElPack v2019.7新版亮點(diǎn)：Transparent mode全新升級(jí)|附下載

substr函數(shù)

論壇徽章:: 26

2015亞冠之胡齊斯坦鋼鐵
日期:2015-06-25 21:40:20

2015亞冠之柏斯波利斯
日期:2015-08-31 17:03:19

2015亞冠之柏斯波利斯
日期:2015-11-07 13:10:00

程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-11-10 06:20:00

每日論壇發(fā)貼之星
日期:2015-11-10 06:20:00

程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-11-26 06:20:00

程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-12-02 06:20:00

黃金圣斗士
日期:2015-12-07 17:57:46

15-16賽季CBA聯(lián)賽之天津
日期:2015-12-23 18:34:14

程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2016-01-02 06:20:00

程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2016-01-06 06:20:00

每日論壇發(fā)貼之星
日期:2016-01-06 06:20:00

2樓 [報(bào)告]

發(fā)表于 2015-11-21 10:13 |只看該作者

我是小白
還請(qǐng)前輩多多指導(dǎo)。

#!/usr/bin/python2
# coding: utf-8
def modi (filename):
IN = '/tmp/' + filename # "out/" + filename
OUT = '/tmp/' + '_' + filename # "out1/" + filename
fhi = open (IN)
fho = open (OUT, 'w')
uniq = set ()
count = 0
for line in fhi:
if line in uniq: continue
uniq.add (line)
count += 1
fho.write (line)
fho.write ("數(shù)據(jù)總量：%s" % count)
fhi.close ()
fho.close ()
modi ('xyz')

復(fù)制代碼

實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

論壇徽章:: 0

3樓 [報(bào)告]

發(fā)表于 2015-11-21 15:05 |只看該作者

回復(fù) 2# substr函數(shù)

太棒了，上次也是麻煩您了。非常感謝。

實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

論壇徽章:: 0

4樓 [報(bào)告]

發(fā)表于 2016-04-05 16:36 |只看該作者

回復(fù) 1# yhizyh
這樣的問題，不用編程，用UNIX命令

cat filename | sort | uniq

復(fù)制代碼

實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

實(shí)習(xí)版主

論壇徽章:: 4

程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-10-14 06:20:00

每日論壇發(fā)貼之星
日期:2015-10-14 06:20:00

程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2016-05-02 06:20:00

程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2016-05-08 06:20:00

5樓 [報(bào)告]

發(fā)表于 2016-04-19 14:15 |只看該作者

問題出在這一行代碼上

lines = fp.readlines()

復(fù)制代碼

實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

發(fā)新帖

Chinaunix › 論壇 › 程序設(shè)計(jì) › Python › python 大文件去重問題

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有京ICP備16024965號(hào)-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號(hào)：11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報(bào)專區(qū)
中國互聯(lián)網(wǎng)協(xié)會(huì)會(huì)員聯(lián)系我們：huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們轉(zhuǎn)載本站內(nèi)容請(qǐng)注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP