- 論壇徽章:
- 0
|
原帖由 hightman 于 2007-9-22 00:23 發(fā)表 ![]()
我也搞了一個全文檢索的套件在 www.ftphp.com
//拜訪了一下,很不錯的東西.
樓主的東西瀏覽了一下,大概是講述如何從頭構(gòu)建一個像Google,baidu之類的web搜索引擎, 但小弟認(rèn)為目前再去構(gòu)建這樣的東西除了興趣研究之外,似乎沒有什么好的發(fā)展前景, 且不說能否做得更優(yōu)秀(不得不承認(rèn)這是極難的), 做好以后面對的市場競爭也是難上加難.
//我只關(guān)心技術(shù),商務(wù)上的東西沒啥意思......
我弄的ftphp支持的量沒有樓主提到的億\上百億\上千億或更多級別,目前基本上能較好的支持千萬級,作為全文索引庫, 主要目標(biāo)是站內(nèi)搜索, 站內(nèi)搜索和通用的WEB搜索引擎(google,baidu為代表)有著許多本質(zhì)的區(qū)別, 站內(nèi)搜索通常對"查全"有更高的要求, 此外排序也應(yīng)更靈活(類似SQL的字段排序), 這些的運算都是目前我無法較好解決的疑難之一呵.
//全文檢索到搜索引擎有比較長的路要走....兩者也有非常大的區(qū)別.
//另外,對于SE,我最大的感觸就是,簡單即美.所以,你的系統(tǒng)不要考慮過于復(fù)雜的查詢....那是徒勞的.
特別是排序, 如果不預(yù)排序,成千上百億的數(shù)量肯定會有億命中的數(shù)量,如果要根據(jù)"點擊次數(shù)"排名,有何良方?? 而且 web 搜索對于查全沒有這么高的要求, 排序也相對單一只要按一種自己認(rèn)為的和搜索關(guān)鍵詞相關(guān)\重要性排序即可.
//不做SE的人...是感覺不到google的pagerank是如何牛的....google的其他技術(shù),人家都有...它成功的關(guān)鍵還是在于它的pagerank.
//當(dāng)然,一家SE公司的成功,還需要很多因素,商業(yè),融資,管理,人材,機遇......
有興趣在此方面進行探討,可惜文章中說到的技術(shù)部分比較,期待技術(shù)文章....
//技術(shù)要寫,就復(fù)雜很多了....估計寫出來是大厚本的書.....太累人.
現(xiàn)在搞搜索的個人也蠻多呀,之前看到一個 www.sqlet.com 也是在做億級WEB通用搜索引擎....
//哦,這個網(wǎng)站,看了一下....還看不到具體的技術(shù)指標(biāo)....
你的網(wǎng)站做得真不錯...那個圖畫得就比我畫的好....
我畫不好圖...直接借人家Lucene的. |
|