无码播放一区二区三区,性一交一乱一伦一

論壇徽章:: 0

電梯直達(dá)

1樓 [收藏(0)] [報(bào)告]

發(fā)表于 2004-06-28 11:26 |只看該作者 |倒序?yàn)g覽

要我做這么一個(gè)東西。用戶有幾個(gè)網(wǎng)站，大部份是　htm,讓我做個(gè)程序，批量讀這些東西，并分出欄目，內(nèi)容，圖片等等放到庫里。就是說，原來用戶沒有庫，現(xiàn)在要把原來的文件，按網(wǎng)站的結(jié)構(gòu)，放到相應(yīng)字段中。
之后，從庫里讀出這些東西，再用我們的模板（xsl）顯示出來。
并且，還要可以修改已經(jīng)導(dǎo)入庫的網(wǎng)站內(nèi)容。
這個(gè)任務(wù)一周完成，我想老板是想開了我，又不想直說。

現(xiàn)在首先要做的就是分析html,取出其中的title,body,img等東西，最好能取出它的結(jié)構(gòu)樹。

我現(xiàn)在還沒什么想法，請(qǐng)大家給個(gè)思路。

文庫|博客

如何通過修改DNS提升網(wǎng)站訪問速度.pdf
Java編程入門官方教程(第7版).pdf
網(wǎng)站開發(fā)常用輔助工具.pdf
新站如何優(yōu)化才能加快收錄.pdf
什么樣的代碼才是好代碼.pdf
使用正則表達(dá)式與lex實(shí)現(xiàn)詞法分析器
C語言的MIPS匯編實(shí)現(xiàn)（四）SWITCH
Requested init /linuxrc failed (error -2).
比較 csv 文件中數(shù)據(jù)差異
LMD ElPack v2019.7新版亮點(diǎn)：Transparent mode全新升級(jí)|附下載

sakulagi

廣告殺手

論壇徽章:: 0

2樓 [報(bào)告]

發(fā)表于 2004-06-28 12:18 |只看該作者

請(qǐng)大家給個(gè)思路，用java分析html文件

http://tertius.org/software/javahtml/

實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

amu23

白手起家

論壇徽章:: 0

3樓 [報(bào)告]

發(fā)表于 2004-06-29 22:43 |只看該作者

請(qǐng)大家給個(gè)思路，用java分析html文件

非常感謝版主。貼出我的測試代碼，也讓大家了解下htmlparser。代碼可以正確運(yùn)行，但有的地方可以簡化，有的地方考慮不多，比如異常。吾現(xiàn)只要這點(diǎn)功能，沒多想。請(qǐng)大家指教。

[code]import org.htmlparser.* ;
import org.htmlparser.tags.* ;
import java.io.* ;

public class TestHtmlParser{
public static void main(String[] args) throws Exception {

//Parser parser = new Parser("file://localhost/F:/study/htmlparser/html/1.htm"

;

FileReader fr = null ;
BufferedReader br = null ;

try{
fr = new FileReader("html/objects.html"

;
br = new BufferedReader(fr) ;
StringBuffer html = new StringBuffer() ;
String s = br.readLine() ;
while(s!=null){
html.append(s);
s = br.readLine() ;
}

s = new String(html.toString().getBytes("gb2312"

,"8859_1"

;

Parser parser = new Parser() ;
parser.setInputHTML(s) ;
//parser.setEncoding("gb2312"

;

//Get title
Node[] titles = parser.extractAllNodesThatAre(TitleTag.class) ;
TitleTag title = (TitleTag)titles[0];
System.out.println("title is :"+ new String(title.getTitle().getBytes("gb2312"

,"gb2312"

);

//Reset the parser to start from the beginning again.
parser.reset() ;
//Get <img>; as a Array
Node[] images = parser.extractAllNodesThatAre (ImageTag.class);
if (images.length!=0){
for (int i = 0; i < images.length; i++) {
ImageTag imageTag = (ImageTag)images;
System.out.println("imagesURl="+new String(imageTag.getImageURL().getBytes(),"gb2312");
}
}else{
System.out.println("

實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

sakulagi

廣告殺手

論壇徽章:: 0

4樓 [報(bào)告]

發(fā)表于 2004-06-30 09:13 |只看該作者

請(qǐng)大家給個(gè)思路，用java分析html文件

amu23鉆研和共享的精神都很值得學(xué)習(xí) 啊

實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

hmkart

豐衣足食

論壇徽章:: 0

5樓 [報(bào)告]

發(fā)表于 2004-06-30 11:44 |只看該作者

請(qǐng)大家給個(gè)思路，用java分析html文件

我所知道的，實(shí)用的都是用c寫的。java提供了大量的類庫，
不過算法應(yīng)該可以借鑒。：)

實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

mills

稍有積蓄

論壇徽章:: 0

6樓 [報(bào)告]

發(fā)表于 2004-06-30 14:29 |只看該作者

請(qǐng)大家給個(gè)思路，用java分析html文件

我把代碼拿下來試了一下
import org.htmlparser.* ;
import org.htmlparser.tags.* ;
是哪來的呀

實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

sakulagi

廣告殺手

論壇徽章:: 0

7樓 [報(bào)告]

發(fā)表于 2004-06-30 14:46 |只看該作者

請(qǐng)大家給個(gè)思路，用java分析html文件

原帖由 "mills" 發(fā)表：
我把代碼拿下來試了一下
import org.htmlparser.* ;
import org.htmlparser.tags.* ;
是哪來的呀

看2樓，我的回復(fù)

實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

mills

稍有積蓄

論壇徽章:: 0

8樓 [報(bào)告]

發(fā)表于 2004-06-30 15:01 |只看該作者

請(qǐng)大家給個(gè)思路，用java分析html文件

是不是要把那個(gè)下載后編譯了呀，我才學(xué)了三天的java不是很清楚

實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

amu23

白手起家

論壇徽章:: 0

9樓 [報(bào)告]

發(fā)表于 2004-06-30 17:32 |只看該作者

請(qǐng)大家給個(gè)思路，用java分析html文件

不用，這里只用了htmlparser.jar這個(gè)包。下載后，加到classpath中就行了。
程序簡化了下，上面的程序我是想練習(xí)下File.

import org.htmlparser.* ;
import org.htmlparser.tags.* ;
import org.htmlparser.util.ParserException ;
import java.io.IOException;
public class TestHtmlParser{
public static void main(String[] args){
String[] url= new String[4] ;
url[0] = "http://www.72891.cn/forum/viewtopic.php?p=2371454#2371454pp";
url[1] = "http://www.cgs.gov.cn/NEWS/Geology%20News/2004/20040629/20040629001.htm";
url[2] = "http://www.mmot.com.tw1/" ;
url[3] = "file://localhost/F:/study/htmlparser/html/8859.htm" ;
String currentUrl = url[0] ;
String[] encoding = new String[4] ;
encoding[0] = "8859_1";
encoding[1] = "gb2312";
encoding[2] = "big5" ;
encoding[3] = "EUC-CN" ;
String currentEncoding = encoding[1] ;
//Get <img>; as a Array
Parser parser = new Parser() ;
try{
parser.setURL(currentUrl) ;
parser.setEncoding(currentEncoding) ;
Node[] images = parser.extractAllNodesThatAre (ImageTag.class);
if (images.length!=0){
for (int i = 0; i < images.length; i++) {
ImageTag imageTag = (ImageTag)images[i];
System.out.println("imageURl="+imageTag.getImageURL());
}
}else{
System.out.println("not found <img>;!") ;
}
}catch(ParserException parserException){
System.out.println("parserException in parsing <img>; ") ;
System.out.println(parserException.getMessage());
}catch(Exception e){
System.out.println("java exception in parsing <img>;") ;
System.out.println(e.getClass());
}
//Get <title>;
try{
parser.setURL(currentUrl);
parser.setEncoding(currentEncoding);
Node[] titles = parser.extractAllNodesThatAre(TitleTag.class) ;
if (titles.length>;=1){
TitleTag title = (TitleTag)titles[0];
System.out.println("title is :"+ title.getTitle());
}else{
System.out.println("not found <table>;!") ;
}
//System.out.println("title is :"+ new String(title.getTitle().getBytes("EUC-CN"),"gb2312"));
}catch(ParserException parserException){
System.out.println("parserException in parsing <title>; ") ;
System.out.println(parserException.getMessage());
}catch(Exception e){
System.out.println("java exception in parsing <title>;") ;
System.out.println(e.getClass());
}
}
}

復(fù)制代碼

實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

wangbin

小富即安

論壇徽章:: 0

10樓 [報(bào)告]

發(fā)表于 2004-07-01 12:25 |只看該作者

請(qǐng)大家給個(gè)思路，用java分析html文件

我剛剛做完練習(xí)

實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

請(qǐng)大家給個(gè)思路，用java分析html文件 [復(fù)制鏈接]

請(qǐng)大家給個(gè)思路，用java分析html文件

請(qǐng)大家給個(gè)思路，用java分析html文件

請(qǐng)大家給個(gè)思路，用java分析html文件

請(qǐng)大家給個(gè)思路，用java分析html文件

請(qǐng)大家給個(gè)思路，用java分析html文件

請(qǐng)大家給個(gè)思路，用java分析html文件

請(qǐng)大家給個(gè)思路，用java分析html文件

請(qǐng)大家給個(gè)思路，用java分析html文件

請(qǐng)大家給個(gè)思路，用java分析html文件


平臺(tái) 論壇博客文庫

亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

請(qǐng)大家給個(gè)思路，用java分析html文件 [復(fù)制鏈接]

請(qǐng)大家給個(gè)思路，用java分析html文件

請(qǐng)大家給個(gè)思路，用java分析html文件

請(qǐng)大家給個(gè)思路，用java分析html文件

請(qǐng)大家給個(gè)思路，用java分析html文件

請(qǐng)大家給個(gè)思路，用java分析html文件

請(qǐng)大家給個(gè)思路，用java分析html文件

請(qǐng)大家給個(gè)思路，用java分析html文件

請(qǐng)大家給個(gè)思路，用java分析html文件

請(qǐng)大家給個(gè)思路，用java分析html文件

請(qǐng)大家給個(gè)思路，用java分析html文件

請(qǐng)大家給個(gè)思路，用java分析html文件

請(qǐng)大家給個(gè)思路，用java分析html文件

請(qǐng)大家給個(gè)思路，用java分析html文件

請(qǐng)大家給個(gè)思路，用java分析html文件

請(qǐng)大家給個(gè)思路，用java分析html文件