- 論壇徽章:
- 0
|
文本30多G,中英文都有,
目前用過幾個(gè)辦法都無法準(zhǔn)確去除重復(fù)。大家?guī)兔纯丛撛趺唇鉀Q。
分割成小文本來處理得話,跨文件的重復(fù)目前沒思路解決。
1. awk
$ awk '!a[$0]++' 1.txt > 2.txt
用AWK的很卡,處理個(gè)1G大小的文本,掛半天才處理600多MB
2. sort
$ sort -u 1.txt > 2.txt
SORT的,1G的文本大概10來分鐘左右完,但是處理后出現(xiàn)亂碼,不知道是不是有中文的問題
3.png (16.28 KB, 下載次數(shù): 54)
下載附件
2015-10-17 22:17 上傳
1.png (81.34 KB, 下載次數(shù): 58)
下載附件
2015-10-17 22:17 上傳
3 SQL 2008 R2
用SQL處理15G的文本,用下面的語句,掛機(jī)兩個(gè)小時(shí)左右就藍(lán)屏重啟了,
下圖是處理5G文本時(shí)彈出的錯(cuò)誤,
select distinct convert(varchar(8000),coltext,111) from tab1;
QQ圖片20151017214300.jpg (73.26 KB, 下載次數(shù): 62)
下載附件
2015-10-17 22:17 上傳
QQ圖片20151017213858.png (27.15 KB, 下載次數(shù): 65)
下載附件
2015-10-17 22:17 上傳
|
|