亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

Chinaunix

標(biāo)題: 關(guān)于去除重復(fù)行,求助 [打印本頁]

作者: blss2008    時間: 2015-10-17 22:20
標(biāo)題: 關(guān)于去除重復(fù)行,求助
文本30多G,中英文都有,
目前用過幾個辦法都無法準(zhǔn)確去除重復(fù)。大家?guī)兔纯丛撛趺唇鉀Q。
分割成小文本來處理得話,跨文件的重復(fù)目前沒思路解決。

1. awk
$ awk '!a[$0]++' 1.txt > 2.txt

用AWK的很卡,處理個1G大小的文本,掛半天才處理600多MB


2. sort
$ sort -u 1.txt > 2.txt

SORT的,1G的文本大概10來分鐘左右完,但是處理后出現(xiàn)亂碼,不知道是不是有中文的問題






3 SQL 2008 R2

用SQL處理15G的文本,用下面的語句,掛機(jī)兩個小時左右就藍(lán)屏重啟了,
下圖是處理5G文本時彈出的錯誤,

select distinct convert(varchar(8000),coltext,111) from tab1;




作者: bikong0411    時間: 2015-10-18 09:22
先按照文件大小切一下文件吧
作者: blss2008    時間: 2015-10-18 13:50
回復(fù) 2# bikong0411


   
分割后,跨文件的重復(fù)怎么處理。。
作者: bikong0411    時間: 2015-10-19 09:47
回復(fù) 3# blss2008


    合并繼續(xù)去重啊
作者: baoersc    時間: 2015-10-19 15:53
幫頂,看到你以前提的問題。
作者: pyartist    時間: 2015-10-20 22:48
我用sort處理中英文的文檔是可以的呀,不過沒處理過這么大的。不知道出來大文件出現(xiàn)什么狀況,樓主試一試在你的環(huán)境下sort小文件是不是會出現(xiàn)亂碼,若是那解決問題就變成了亂碼問題

去重復(fù)行:
cat filename |uniq > output

or:

perl: hash
my %line;
$line{這行內(nèi)容} = "";
keys %line就是去重的內(nèi)容







歡迎光臨 Chinaunix (http://www.72891.cn/) Powered by Discuz! X3.2