亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費(fèi)注冊(cè) 查看新帖 |

Chinaunix

  平臺(tái) 論壇 博客 文庫
12下一頁
最近訪問板塊 發(fā)新帖
查看: 4346 | 回復(fù): 12
打印 上一主題 下一主題

[求助]網(wǎng)頁內(nèi)容解析實(shí)現(xiàn)方法? [復(fù)制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報(bào)告]
發(fā)表于 2008-03-01 21:17 |只看該作者 |倒序?yàn)g覽
對(duì)網(wǎng)頁中的信息進(jìn)行采集,
如對(duì)cu首頁的“論壇熱點(diǎn)討論”的新聞進(jìn)行采集。
需要對(duì)整個(gè)cu首頁進(jìn)行分析,去掉無用的信息,將“論壇熱點(diǎn)討論”下的內(nèi)容采集,并存入數(shù)據(jù)庫。
我的想法是,采用preg_match 或 用js進(jìn)行xml解析。
向各位高手請(qǐng)教下基本的思路及實(shí)現(xiàn)方法,感謝。

論壇徽章:
0
2 [報(bào)告]
發(fā)表于 2008-03-02 01:32 |只看該作者
采集不懂,幫你頂

論壇徽章:
0
3 [報(bào)告]
發(fā)表于 2008-03-02 01:51 |只看該作者
好象用正則表達(dá)式做

論壇徽章:
0
4 [報(bào)告]
發(fā)表于 2008-03-02 09:16 |只看該作者
呵呵 我也不懂 .幫你頂

論壇徽章:
0
5 [報(bào)告]
發(fā)表于 2008-03-03 00:20 |只看該作者
要做垃圾站?

論壇徽章:
0
6 [報(bào)告]
發(fā)表于 2008-03-03 09:13 |只看該作者
用正則可以實(shí)現(xiàn)

論壇徽章:
0
7 [報(bào)告]
發(fā)表于 2008-03-03 13:29 |只看該作者
原帖由 ashchen 于 2008-3-3 00:20 發(fā)表
要做垃圾站?


論壇徽章:
0
8 [報(bào)告]
發(fā)表于 2008-03-03 20:36 |只看該作者

回復(fù) #1 yb0312 的帖子

最好用socket,bind 80獲取數(shù)據(jù)比較OK

論壇徽章:
0
9 [報(bào)告]
發(fā)表于 2008-03-04 00:21 |只看該作者
謝謝大家這么熱心。
我做這個(gè)的目的,主要是想實(shí)時(shí)采集某些網(wǎng)站發(fā)布的數(shù)據(jù)(絕非垃圾網(wǎng)站 ),
自己一行一行的輸入是很浪費(fèi)時(shí)間跟精力的。
目標(biāo)數(shù)據(jù)是采用表格結(jié)構(gòu)發(fā)布,需要分析<table>并截取數(shù)據(jù),
現(xiàn)在的問題是目標(biāo)網(wǎng)頁中<table>太多,
正則是一件很惱火的工作,
哪位有現(xiàn)成的代碼或給個(gè)示例?
謝謝

論壇徽章:
0
10 [報(bào)告]
發(fā)表于 2008-03-04 09:08 |只看該作者
如果table是嵌套的就麻煩了,
可以不用限定于一種技術(shù),
例如,先過濾掉無關(guān)信息,而且不要破壞格式,
然后在客戶端,瀏覽器解析成dom結(jié)構(gòu),
就可以用js取得table的內(nèi)容了。
您需要登錄后才可以回帖 登錄 | 注冊(cè)

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號(hào)-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號(hào):11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報(bào)專區(qū)
中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)會(huì)員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請(qǐng)注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP