平臺論壇博客文庫

› 論壇 › 程序設(shè)計(jì) › Python › 學(xué)了一個(gè)禮拜python，寫的讀baidu空間日志的例子

學(xué)了一個(gè)禮拜python，寫的讀baidu空間日志的例子 [復(fù)制鏈接]

honey709

稍有積蓄

論壇徽章:: 0

電梯直達(dá)

1樓 [收藏(0)] [報(bào)告]

發(fā)表于 2009-05-27 17:08 |只看該作者 |倒序?yàn)g覽

恩
馬馬虎虎學(xué)了一周
其實(shí)也沒有一周
就是下班了
晚上回去看看書

#!/usr/bin/env python
# -*- coding: gbk -*-

import urllib, re

from sgmllib import SGMLParser

import sys
reload(sys)
sys.setdefaultencoding('gbk')

class URLLister(SGMLParser):
def reset(self):
SGMLParser.reset(self)
self.urls = []

def start_a(self, attrs):
href = [v for k, v in attrs if k=='href']
if href:
self.urls.extend(href)

homeurl ="http://hi.baidu.com/shenjianyz/blog"
urlbase = homeurl[:homeurl.rfind("/")]
urlbase = urlbase[:urlbase.rfind("/")]

usock = urllib.urlopen(homeurl)
fp = usock.read()
parser = URLLister()
parser.feed(fp)

usock.close()
parser.close()
fp = unicode(fp, "gbk")

modpattern = '^/\S+.html$'
useurl = []
for url in parser.urls:
if re.search(modpattern, url) :
useurl.append(url)

urlunique = [i for i in set(useurl)]

for i in urlunique:
tilepattern = "<div class=\"tit\"><a href=\"" + i +"\" target=\"_blank\">(\S+)</a>"

line = fp
if len(line) == 0:
break
regline = line
try:
reg=re.search(tilepattern,regline).group(1)
except AttributeError:
continue

file = open(reg+'.txt','w')
linkusock = urllib.urlopen(urlbase+i)
content = linkusock.read()
content = unicode(content, "gbk")

linkusock.close()
contentpattern = "<div id=\"m_blog\" class=\"modbox\">((\S|\s)*)<div class=\"opt\">"

contentline = content

if len(contentline) == 0:
break
try:
getcontent = re.search(contentpattern, contentline).group(1)
except AttributeError:
continue

#content去掉html標(biāo)簽
re_br = re.compile('<br\s*?/?>')#
re_div = re.compile('</?\s*div\s*(class\s*=\s*\"\w+\"|id\s*=\s*\"\w+\"|\s)*>')#div標(biāo)簽
re_h = re.compile('</?\w+[^>]*>')#HTML標(biāo)簽
re_comment = re.compile('')#HTML注釋
re_td = re.compile('<\s*/?\s*td\s*>')
re_nbsp = re.compile('&nbsp\s*;|&lt\s*;|&mdash\s*;')

getcontent = re_br.sub('\n', getcontent)#將br轉(zhuǎn)換為換行
getcontent = re_div.sub(' ', getcontent)
getcontent = re_h.sub(' ', getcontent)
getcontent = re_comment.sub(' ', getcontent)
getcontent = re_td.sub(' ', getcontent)
getcontent = re_nbsp.sub(' ', getcontent)
file.write(urlbase+i+'\n')
file.write(getcontent)
file.close()

文庫|博客

使用正則表達(dá)式與lex實(shí)現(xiàn)詞法分析器
C語言的MIPS匯編實(shí)現(xiàn)（四）SWITCH
Requested init /linuxrc failed (error -2).
比較 csv 文件中數(shù)據(jù)差異
LMD ElPack v2019.7新版亮點(diǎn)：Transparent mode全新升級|附下載

xiaoyu9805119

富足長樂

論壇徽章:: 0

2樓 [報(bào)告]

發(fā)表于 2009-05-27 17:13 |只看該作者

感謝分享，就是最后的替換html符部分有點(diǎn)亂，可以把幾個(gè)sub寫在一個(gè)正則里面去替換

實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

返回列表

Chinaunix › 論壇 › 程序設(shè)計(jì) › Python › 學(xué)了一個(gè)禮拜python，寫的讀baidu空間日志的例子

積分 0, 距離下一級還需積分

亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

學(xué)了一個(gè)禮拜python，寫的讀baidu空間日志的 例子 [復(fù)制鏈接]

學(xué)了一個(gè)禮拜python，寫的讀baidu空間日志的例子 [復(fù)制鏈接]