亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
最近訪問板塊 發(fā)新帖
查看: 3045 | 回復(fù): 4
打印 上一主題 下一主題

【求助】為什么正則匹配得出的變量不能繼續(xù)匹配獲得想要的數(shù)據(jù)? [復(fù)制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報告]
發(fā)表于 2011-11-27 20:19 |只看該作者 |倒序瀏覽
各位chinaunix的朋友們,大家好。今天繼續(xù)尋求您們的幫助。

今天試著用python寫了個獲取百度貼吧帖子第一頁內(nèi)容的小玩意,但是,很奇怪,在用正則取得樓主名字之后,卻無法再使用樓主的名字繼續(xù)獲得樓主發(fā)表的內(nèi)容;而通過手工指定卻可以。具體代碼如下:
  1. #!/usr/bin/python
  2. #coding:utf-8

  3. import re,urllib2,sys

  4. def html_to_text(html):
  5.     html = re.sub(r'<p>(.*?)</p>', r'\1\n', html)
  6.     html = re.sub(r'<br>', r'\n', html)
  7.     html = re.sub(r'\n\n', r'\n', html)
  8.     html = re.sub(r'<[^<>]*>', '', html)
  9.     html = html.replace('\r', '')
  10.     return html.strip()

  11. url = 'http://tieba.baidu.com/p/1294878714'
  12. a = urllib2.urlopen(url).read()

  13. #開始創(chuàng)建文件
  14. fp = open('tstsss.txt','w')

  15. #開始找樓主
  16. findlouzhu = re.findall(r'author:.*',a,re.M)

  17. louzhu = ''
  18. for louzhu in findlouzhu:
  19.     louzhu = re.sub(r'author:"', r'', louzhu )
  20.     louzhu = re.sub(r'",',r'',louzhu )

  21. #看看樓主是誰
  22. print louzhu

  23. #此處很奇怪,從正則表達式匹配出來的樓主,和下面賦值的時一樣的,但是,
  24. #下面如果使用正則表達式匹配取得的變量的話,卻無法取得內(nèi)容并生成內(nèi)容。
  25. #而使用手動賦值的話,確可以獲取到樓主的發(fā)布的內(nèi)容。這是什么原因?
  26. #louzhu = 'pbs6666'

  27. content = re.findall(r'<li class="d_name">.*?</cc>',a,re.M|re.S)
  28. for i in content:
  29.     if re.search(louzhu,i):
  30.         abc = re.findall(r'<cc>.*?</cc>',i,re.M|re.S)
  31.         for j in abc:
  32.             fp.write(html_to_text(j)+'\n')
  33. fp.close()
復(fù)制代碼

論壇徽章:
0
2 [報告]
發(fā)表于 2011-11-28 14:21 |只看該作者
你獲得的字符串中包含了空格
將re.search(louzhu, i)
改為re.search(louzhu.strip(), i)

論壇徽章:
0
3 [報告]
發(fā)表于 2011-11-28 14:21 |只看該作者
你獲得的字符串中包含了空格
將re.search(louzhu, i)
改為re.search(louzhu.strip(), i)

論壇徽章:
0
4 [報告]
發(fā)表于 2011-11-28 17:40 |只看該作者
回復(fù) 3# lixinyong0412

非常感謝您的回復(fù),原來是這樣子的啊。謝謝!

論壇徽章:
0
5 [報告]
發(fā)表于 2011-11-28 21:18 |只看該作者
解析網(wǎng)頁,建議用BeautifulSoup
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP