亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

免費注冊	查看新帖 \|


平臺論壇博客文庫

› 論壇 › 程序設(shè)計 › Python › 【求助】為什么正則匹配得出的變量不能繼續(xù)匹配獲得想要 ...

最近訪問板塊

發(fā)新帖

查看: 3045 | 回復(fù): 4

上一主題

下一主題

【求助】為什么正則匹配得出的變量不能繼續(xù)匹配獲得想要的數(shù)據(jù)？ [復(fù)制鏈接]

論壇徽章:: 0

電梯直達

跳轉(zhuǎn)到指定樓層

1樓 [收藏(0)] [報告]

發(fā)表于 2011-11-27 20:19 |只看該作者 |倒序瀏覽

各位chinaunix的朋友們，大家好。今天繼續(xù)尋求您們的幫助。

今天試著用python寫了個獲取百度貼吧帖子第一頁內(nèi)容的小玩意，但是，很奇怪，在用正則取得樓主名字之后，卻無法再使用樓主的名字繼續(xù)獲得樓主發(fā)表的內(nèi)容；而通過手工指定卻可以。具體代碼如下：

#!/usr/bin/python
#coding:utf-8
import re,urllib2,sys
def html_to_text(html):
html = re.sub(r'<p>(.*?)</p>', r'\1\n', html)
html = re.sub(r'<br>', r'\n', html)
html = re.sub(r'\n\n', r'\n', html)
html = re.sub(r'<[^<>]*>', '', html)
html = html.replace('\r', '')
return html.strip()
url = 'http://tieba.baidu.com/p/1294878714'
a = urllib2.urlopen(url).read()
#開始創(chuàng)建文件
fp = open('tstsss.txt','w')
#開始找樓主
findlouzhu = re.findall(r'author:.*',a,re.M)
louzhu = ''
for louzhu in findlouzhu:
louzhu = re.sub(r'author:"', r'', louzhu )
louzhu = re.sub(r'",',r'',louzhu )
#看看樓主是誰
print louzhu
#此處很奇怪，從正則表達式匹配出來的樓主，和下面賦值的時一樣的，但是，
#下面如果使用正則表達式匹配取得的變量的話，卻無法取得內(nèi)容并生成內(nèi)容。
#而使用手動賦值的話，確可以獲取到樓主的發(fā)布的內(nèi)容。這是什么原因？
#louzhu = 'pbs6666'
content = re.findall(r'<li class="d_name">.*?</cc>',a,re.M|re.S)
for i in content:
if re.search(louzhu,i):
abc = re.findall(r'<cc>.*?</cc>',i,re.M|re.S)
for j in abc:
fp.write(html_to_text(j)+'\n')
fp.close()

復(fù)制代碼

文庫|博客

使用正則表達式與lex實現(xiàn)詞法分析器
C語言的MIPS匯編實現(xiàn)（四）SWITCH
Requested init /linuxrc failed (error -2).
比較 csv 文件中數(shù)據(jù)差異
LMD ElPack v2019.7新版亮點：Transparent mode全新升級|附下載

論壇徽章:: 0

2樓 [報告]

發(fā)表于 2011-11-28 14:21 |只看該作者

你獲得的字符串中包含了空格
將re.search(louzhu, i)
改為re.search(louzhu.strip(), i)

實戰(zhàn)分享：從技術(shù)角度談機器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

論壇徽章:: 0

3樓 [報告]

發(fā)表于 2011-11-28 14:21 |只看該作者

你獲得的字符串中包含了空格
將re.search(louzhu, i)
改為re.search(louzhu.strip(), i)

實戰(zhàn)分享：從技術(shù)角度談機器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

論壇徽章:: 0

4樓 [報告]

發(fā)表于 2011-11-28 17:40 |只看該作者

回復(fù) 3# lixinyong0412

非常感謝您的回復(fù)，原來是這樣子的啊。謝謝！

實戰(zhàn)分享：從技術(shù)角度談機器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

論壇徽章:: 0

5樓 [報告]

發(fā)表于 2011-11-28 21:18 |只看該作者

解析網(wǎng)頁，建議用BeautifulSoup

實戰(zhàn)分享：從技術(shù)角度談機器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

發(fā)新帖

Chinaunix › 論壇 › 程序設(shè)計 › Python › 【求助】為什么正則匹配得出的變量不能繼續(xù)匹配獲得想要 ...

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號：11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員聯(lián)系我們：huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP

<blockquote id="ckdtq"></blockquote>

<blockquote id="ckdtq"><i id="ckdtq"></i></blockquote>