亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費(fèi)注冊(cè) 查看新帖 |

Chinaunix

  平臺(tái) 論壇 博客 文庫(kù)
最近訪問板塊 發(fā)新帖
樓主: xtthnfr
打印 上一主題 下一主題

[算法] 我對(duì)算法的一點(diǎn)感觸 [復(fù)制鏈接]

論壇徽章:
0
21 [報(bào)告]
發(fā)表于 2007-09-03 18:13 |只看該作者
原帖由 nully 于 2007-9-3 13:20 發(fā)表
我的算法:

1.重排URL變量
2.md5一次,16個(gè)字節(jié)128位
3.將16字節(jié)運(yùn)算得到34位數(shù)據(jù)
4.34位數(shù)據(jù)剛好使用2G文件(* 8 bit)來記錄是否出現(xiàn)過

可能有重疊情況發(fā)生,但16G的位空間應(yīng)該夠用了。


用MD5的話.....其實(shí)本質(zhì)上就是自己的Hash函數(shù),用MD5來代替.

但是,MD5運(yùn)算過于復(fù)雜,每運(yùn)算一次需要的CPU運(yùn)算次數(shù),過多.....可做個(gè)實(shí)驗(yàn)....50億次的MD5運(yùn)算....花費(fèi)時(shí)間太長(zhǎng).

所以,自己來設(shè)計(jì)的HASH函數(shù)一定要簡(jiǎn)單,速度很重要.



[ 本帖最后由 xtthnfr 于 2007-9-3 18:19 編輯 ]

論壇徽章:
0
22 [報(bào)告]
發(fā)表于 2007-09-03 18:18 |只看該作者
原帖由 lemosa 于 2007-9-3 17:49 發(fā)表
算法就像登山中尋找的路。
找對(duì)了,能省很多力氣!



對(duì)頭.....這個(gè)比喻很形象.

爬到山頂,是我們程序設(shè)計(jì)的最后目的.但如何爬上去,路線選擇就是算法之路了.

我能想到的爬山路線有...

1.自己走路.

2.找個(gè)人背我上去.

3.開車上去.

4.坐纜車.

5.坐直升機(jī)...

論壇徽章:
0
23 [報(bào)告]
發(fā)表于 2007-09-03 18:23 |只看該作者
原帖由 xtthnfr 于 2007-9-3 18:13 發(fā)表


用MD5的話.....其實(shí)本質(zhì)上就是自己的Hash函數(shù),用MD5來代替.

但是,MD5運(yùn)算過于復(fù)雜,每運(yùn)算一次需要的CPU運(yùn)算次數(shù),過多.....可做個(gè)實(shí)驗(yàn)....50億次的MD5運(yùn)算....花費(fèi)時(shí)間太長(zhǎng).

所以,自己來設(shè)計(jì)的HASH函數(shù) ...


就我這個(gè)算法,I/O才是瓶勁,對(duì)于整個(gè)爬蟲來說,網(wǎng)絡(luò)I/O是瓶頸。
自己寫出來效果很難比md5好,重疊率較高

論壇徽章:
0
24 [報(bào)告]
發(fā)表于 2007-09-03 19:04 |只看該作者
原帖由 nully 于 2007-9-3 18:23 發(fā)表


就我這個(gè)算法,I/O才是瓶勁,對(duì)于整個(gè)爬蟲來說,網(wǎng)絡(luò)I/O是瓶頸。
自己寫出來效果很難比md5好,重疊率較高


MD5肯定玩不轉(zhuǎn)的.....運(yùn)算一次,耗費(fèi)時(shí)間太長(zhǎng).

現(xiàn)在的網(wǎng)絡(luò)速度,對(duì)于搜索引擎公司來講,不是啥問題.

如果,你抓取的URL總數(shù)是50億....那么你要處理的URL估計(jì)就會(huì)是 50 X N 億次.

把所有的URL排重都放到一個(gè)MD5里面來考慮....

可以算一下時(shí)間.....可以找些URL來做實(shí)驗(yàn)....看看1萬個(gè)URL,全部MD5運(yùn)算,需要多少時(shí)間....

如果抓取回來的URL為200億....可以大概估算出來MD5的運(yùn)算時(shí)間.

有時(shí)間的寫個(gè)小程序,運(yùn)算一下單條URL做MD5的平均時(shí)間.

論壇徽章:
0
25 [報(bào)告]
發(fā)表于 2007-09-03 20:07 |只看該作者
原帖由 xtthnfr 于 2007-9-3 19:04 發(fā)表


MD5肯定玩不轉(zhuǎn)的.....運(yùn)算一次,耗費(fèi)時(shí)間太長(zhǎng).

現(xiàn)在的網(wǎng)絡(luò)速度,對(duì)于搜索引擎公司來講,不是啥問題.

如果,你抓取的URL總數(shù)是50億....那么你要處理的URL估計(jì)就會(huì)是 50 X N 億次.

把所有的URL排重都放到 ...


我錯(cuò)了....

MD5的運(yùn)算速度是很快的....

寫了調(diào)用MD5的小程序,速度真的很快.

論壇徽章:
39
2017金雞報(bào)曉
日期:2017-02-08 10:39:4219周年集字徽章-周
日期:2023-04-15 12:02:2715-16賽季CBA聯(lián)賽之深圳
日期:2023-02-16 14:39:0220周年集字徽章-年
日期:2022-08-31 14:25:28黑曼巴
日期:2022-08-17 18:57:0919周年集字徽章-年
日期:2022-04-25 13:02:5920周年集字徽章-20	
日期:2022-03-29 11:10:4620周年集字徽章-年
日期:2022-03-14 22:35:1820周年集字徽章-周	
日期:2022-03-09 12:51:3220周年集字徽章-年
日期:2022-02-10 13:13:4420周年集字徽章-周	
日期:2022-02-03 12:09:4420周年集字徽章-20	
日期:2022-01-25 20:14:27
26 [報(bào)告]
發(fā)表于 2007-09-03 20:26 |只看該作者
原帖由 xtthnfr 于 2007-9-3 11:16 發(fā)表


我都說了是自己寫HASH了....

搜索引擎里面很多地方都用到HASH.


終于說到用HASH了!我覺得也是。50億個(gè)地址用多少位HASH比較合適?128?160?還是更短點(diǎn)就行?

論壇徽章:
39
2017金雞報(bào)曉
日期:2017-02-08 10:39:4219周年集字徽章-周
日期:2023-04-15 12:02:2715-16賽季CBA聯(lián)賽之深圳
日期:2023-02-16 14:39:0220周年集字徽章-年
日期:2022-08-31 14:25:28黑曼巴
日期:2022-08-17 18:57:0919周年集字徽章-年
日期:2022-04-25 13:02:5920周年集字徽章-20	
日期:2022-03-29 11:10:4620周年集字徽章-年
日期:2022-03-14 22:35:1820周年集字徽章-周	
日期:2022-03-09 12:51:3220周年集字徽章-年
日期:2022-02-10 13:13:4420周年集字徽章-周	
日期:2022-02-03 12:09:4420周年集字徽章-20	
日期:2022-01-25 20:14:27
27 [報(bào)告]
發(fā)表于 2007-09-03 20:28 |只看該作者
原帖由 xtthnfr 于 2007-9-3 20:07 發(fā)表


我錯(cuò)了....

MD5的運(yùn)算速度是很快的....

寫了調(diào)用MD5的小程序,速度真的很快.



相對(duì)于提取網(wǎng)頁數(shù)據(jù),MD5的計(jì)算時(shí)間只是一小點(diǎn)點(diǎn)而已,網(wǎng)絡(luò)再快,提取網(wǎng)頁速度也是秒級(jí)的,計(jì)算MD5時(shí)間可以忽略不計(jì)。

論壇徽章:
0
28 [報(bào)告]
發(fā)表于 2007-09-03 20:47 |只看該作者
不參與論戰(zhàn)~~~~~~··

論壇徽章:
0
29 [報(bào)告]
發(fā)表于 2007-09-06 15:13 |只看該作者
個(gè)人對(duì)于算法的看法是:
人機(jī)部分以人為本,機(jī)器處理部分以效率為本。

論壇徽章:
0
30 [報(bào)告]
發(fā)表于 2007-09-06 15:41 |只看該作者
原帖由 benjiam 于 2007-9-1 16:41 發(fā)表
以后再遇到瓶頸,采用B+樹算法構(gòu)建索引文件

并不合適, 多個(gè)客戶端 一起用 也是非常麻煩的。


使用B樹是一種可選的路徑。
作HASH當(dāng)然效率比B樹高,但是需要大內(nèi)存阿。
B樹只要磁盤夠大就行了。還是比內(nèi)存便宜很多很多的。


如果是一個(gè)要賣給客戶的產(chǎn)品的話,只要效率完全夠用,
這一點(diǎn)上就會(huì)增強(qiáng)產(chǎn)品競(jìng)爭(zhēng)力了。

當(dāng)然這個(gè)選型要結(jié)合具體情況分析,本身是一個(gè)權(quán)衡的過程。

多個(gè)客戶端的問題沒看明白,是說要同步多個(gè)客戶端嗎,
那這個(gè)問題無論采用哪種方式來組織都是不可避免的阿。
您需要登錄后才可以回帖 登錄 | 注冊(cè)

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號(hào)-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號(hào):11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報(bào)專區(qū)
中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)會(huì)員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請(qǐng)注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP