- 論壇徽章:
- 0
|
對了,那就順便再問個問題,
大家注意到很多采集程序可以讓用戶填寫[內(nèi)容][標題]等標簽.
但程序是怎么樣判斷到底采回來的內(nèi)容是什么的呢?
因為我們其實最終都會幫用戶將這些表達式翻譯成正則,
如果我這樣寫:
<a href=[地址]>[標題]</a>
當然程序可以直接翻譯成正則,因為很明顯
preg_match后,第一個元素是地址,第二個是標題.
于是就$url = $Data[1];
$title = $Data[2];
但是假如是有這樣的內(nèi)容,我想做采集,用戶使用了[可變數(shù)據(jù)]標簽,那我們的程序如何獲得呢?
HTML內(nèi)容是:
<a href=/society.html>(社會)</a><a href=fdsfa87fdss8d7f9sa8.html>第一條標題</a>
<a href=/tech.html>(科技)</a><a href=fdsfa87fd87fd65of9h.html>第二條標題</a>
那么用戶就必須這樣寫采集規(guī)則:
<a href=/[可變數(shù)據(jù)]>([可變數(shù)據(jù)])</a><a href=[地址]>[標題]</a>
那我們的程序這時候如何識別,獲得地址和標題?
ps:喬喬如果覺得這個屬于新的話題我就另開個新主題好了. |
|