- 論壇徽章:
- 0
|
我也搞了一個全文檢索的套件在 www.ftphp.com
樓主的東西瀏覽了一下,大概是講述如何從頭構(gòu)建一個像Google,baidu之類的web搜索引擎, 但小弟認(rèn)為目前再去構(gòu)建這樣的東西除了興趣研究之外,似乎沒有什么好的發(fā)展前景, 且不說能否做得更優(yōu)秀(不得不承認(rèn)這是極難的), 做好以后面對的市場競爭也是難上加難.
我弄的ftphp支持的量沒有樓主提到的億\上百億\上千億或更多級別,目前基本上能較好的支持千萬級,作為全文索引庫, 主要目標(biāo)是站內(nèi)搜索, 站內(nèi)搜索和通用的WEB搜索引擎(google,baidu為代表)有著許多本質(zhì)的區(qū)別, 站內(nèi)搜索通常對"查全"有更高的要求, 此外排序也應(yīng)更靈活(類似SQL的字段排序), 這些的運(yùn)算都是目前我無法較好解決的疑難之一呵.
特別是排序, 如果不預(yù)排序,成千上百億的數(shù)量肯定會有億命中的數(shù)量,如果要根據(jù)"點(diǎn)擊次數(shù)"排名,有何良方?? 而且 web 搜索對于查全沒有這么高的要求, 排序也相對單一只要按一種自己認(rèn)為的和搜索關(guān)鍵詞相關(guān)\重要性排序即可.
有興趣在此方面進(jìn)行探討,可惜文章中說到的技術(shù)部分比較,期待技術(shù)文章....
現(xiàn)在搞搜索的個人也蠻多呀,之前看到一個 www.sqlet.com 也是在做億級WEB通用搜索引擎.... |
|