亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費(fèi)注冊(cè) 查看新帖 |

Chinaunix

  平臺(tái) 論壇 博客 文庫
12下一頁
最近訪問板塊 發(fā)新帖
查看: 7930 | 回復(fù): 17
打印 上一主題 下一主題

python正則表達(dá)式匹配中文 [復(fù)制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報(bào)告]
發(fā)表于 2014-04-21 11:10 |只看該作者 |倒序?yàn)g覽
有以下文本信息,要從中匹配到聯(lián)系人、職位、電話、移動(dòng)電話,現(xiàn)在是匹配不到中文,找高手賜教,正則表達(dá)式要如何寫:

<div class="m-header"><h3>聯(lián)系方式</h3></div>
                <div class="m-content">
                                   
            
            

                    <div><a href="http://me./szchunhuik.html" class="membername" target="_blank">鐘小春</a>&nbsp;先生&nbsp;(工程部 經(jīng)理)
                                                <a data-alitalk="{id: '春輝精密',type:'athena_alitalk_zban'}" target="_blank" href="http://amos.alicdn.com/getcid.aw?v=3&uid=春輝精密&site=cnalichn&groupid=0&s=1&charset=gbk">
                                       
                        </a>
            </div>
                        <dl>
                <dt>電&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;話:</dt>
                <dd>86 0755 23079683</dd>
            </dl>
                                   
                        <dl class="m-mobilephone" data-need-not-login="true" data-no="13923818521">
                <dt>移動(dòng)電話:</dt>
                <dd class="mobile-number">                        13923818521
                                    </dd>
            </dl>
                                    <dl>
                <dt>傳&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;真:</dt>
                <dd>86 0755 29759855</dd>
            </dl>

論壇徽章:
33
榮譽(yù)會(huì)員
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT運(yùn)維版塊每日發(fā)帖之星
日期:2016-04-17 06:23:27操作系統(tǒng)版塊每日發(fā)帖之星
日期:2016-04-18 06:20:00IT運(yùn)維版塊每日發(fā)帖之星
日期:2016-04-24 06:20:0015-16賽季CBA聯(lián)賽之天津
日期:2016-05-06 12:46:59
2 [報(bào)告]
發(fā)表于 2014-04-21 13:29 |只看該作者
加上 re.UNICODE 試試.

論壇徽章:
0
3 [報(bào)告]
發(fā)表于 2014-04-21 14:22 |只看該作者
q1208c 發(fā)表于 2014-04-21 13:29
加上 re.UNICODE 試試.


在哪里加?

論壇徽章:
0
4 [報(bào)告]
發(fā)表于 2014-04-21 15:29 |只看該作者
英文能匹配到,中文匹配不到...

論壇徽章:
33
榮譽(yù)會(huì)員
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT運(yùn)維版塊每日發(fā)帖之星
日期:2016-04-17 06:23:27操作系統(tǒng)版塊每日發(fā)帖之星
日期:2016-04-18 06:20:00IT運(yùn)維版塊每日發(fā)帖之星
日期:2016-04-24 06:20:0015-16賽季CBA聯(lián)賽之天津
日期:2016-05-06 12:46:59
5 [報(bào)告]
發(fā)表于 2014-04-21 16:07 |只看該作者
回復(fù) 3# howema


re.compile('xxxx', re.UNICODE)

   

論壇徽章:
0
6 [報(bào)告]
發(fā)表于 2014-04-21 17:42 |只看該作者
q1208c 發(fā)表于 2014-04-21 16:07
回復(fù) 3# howema


加了還是匹配不到漢字
得到的結(jié)果為[]

論壇徽章:
33
榮譽(yù)會(huì)員
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT運(yùn)維版塊每日發(fā)帖之星
日期:2016-04-17 06:23:27操作系統(tǒng)版塊每日發(fā)帖之星
日期:2016-04-18 06:20:00IT運(yùn)維版塊每日發(fā)帖之星
日期:2016-04-24 06:20:0015-16賽季CBA聯(lián)賽之天津
日期:2016-05-06 12:46:59
7 [報(bào)告]
發(fā)表于 2014-04-21 18:44 |只看該作者
回復(fù) 6# howema

貼上你的代碼段 和 數(shù)據(jù) 來看看
   

論壇徽章:
0
8 [報(bào)告]
發(fā)表于 2014-04-22 00:36 |只看該作者
re表達(dá)式應(yīng)該和被搜索字符串編碼相同。如都是unicode,或者都是utf8

>>> unicode_s = u"<h3>聯(lián)系方式</h3>"
>>> str_s = "<h3>聯(lián)系方式</h3>"
>>> unicode_s
u'<h3>\u8054\u7cfb\u65b9\u5f0f</h3>'
>>> str_s
'<h3>\xe8\x81\x94\xe7\xb3\xbb\xe6\x96\xb9\xe5\xbc\x8f</h3>'
>>> import re
>>> re.search('聯(lián)系', str_s)
<_sre.SRE_Match object at 0x982da30>
>>> re.search('聯(lián)系', unicode_s)  # 沒找到
>>> re.search(u'聯(lián)系', unicode_s)
<_sre.SRE_Match object at 0x9ab4170>

論壇徽章:
0
9 [報(bào)告]
發(fā)表于 2014-04-22 13:40 |只看該作者
代碼如下:

def getInfoFromPage(pattern,page):
    p = re.compile(pattern,re.UNICODE)
    result = p.findall(page)
    print result
    return result


pat = "手機(jī)版"#任何網(wǎng)頁上的中文
url = 'http://detail.1688.com/offer/42776544.html'
page = urllib2.urlopen(url)
data = page.read()
result = getInfoFromPage(pat,data)

得到的結(jié)果都是[]

論壇徽章:
33
榮譽(yù)會(huì)員
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT運(yùn)維版塊每日發(fā)帖之星
日期:2016-04-17 06:23:27操作系統(tǒng)版塊每日發(fā)帖之星
日期:2016-04-18 06:20:00IT運(yùn)維版塊每日發(fā)帖之星
日期:2016-04-24 06:20:0015-16賽季CBA聯(lián)賽之天津
日期:2016-05-06 12:46:59
10 [報(bào)告]
發(fā)表于 2014-04-22 13:51 |只看該作者
  1. #!/usr/bin/env python
  2. # -*- coding: utf-8 -*-

  3. ## set the file encoding as utf-8
  4. import sys
  5. reload(sys)
  6. sys.setdefaultencoding('utf-8')

  7. import urllib2
  8. import re


  9. def getInfoFromPage(pattern,page):
  10.     p = re.compile(pattern,re.UNICODE)
  11.     result = p.findall(page)
  12.     print result
  13.     return result


  14. pat = "手機(jī)版"#任何網(wǎng)頁上的中文
  15. url = 'http://detail.1688.com/offer/42776544.html'
  16. page = urllib2.urlopen(url)
  17. data = page.read().decode('gbk').encode('utf-8')
  18. print data
  19. result = getInfoFromPage(pat,data)
復(fù)制代碼
改成這樣就行了. 原來頁面的編碼是GBK的.

回復(fù) 9# howema


   
您需要登錄后才可以回帖 登錄 | 注冊(cè)

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號(hào)-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號(hào):11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報(bào)專區(qū)
中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)會(huì)員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請(qǐng)注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP