亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費(fèi)注冊(cè) 查看新帖 |

Chinaunix

  平臺(tái) 論壇 博客 文庫(kù)
最近訪問(wèn)板塊 發(fā)新帖
查看: 13638 | 回復(fù): 8
打印 上一主題 下一主題

python:判斷一個(gè)字符串是否是URL [復(fù)制鏈接]

論壇徽章:
1
子鼠
日期:2014-08-28 13:27:13
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報(bào)告]
發(fā)表于 2014-09-03 15:57 |只看該作者 |倒序?yàn)g覽
07/Aug/2014:15:36:32     10.6.99.74     cyjtest   124.160.136.240
07/Aug/2014:15:36:32     10.6.99.74     cyjtest    124.160.136.250
07/Aug/2014:15:36:59     10.6.99.74     cyjtest     www.baidu.com
07/Aug/2014:15:37:00     10.6.99.74     cyjtest     sports.sina.com.cn
包含很多行上述行的文本text1.txt:
Python code:

fr = open (r'text1.txt','r')
fw = open(r'text2.txt','w+')
for text in fr:
    li = text.split(' ')
    if li[3].......:
       fw.write(text)
fr.close()
fw.close()

想判斷l(xiāng)i[3]是不是URL,如果是就寫(xiě)入新文件,不是(即IP)就不寫(xiě)入,請(qǐng)問(wèn)省略號(hào)部分怎么寫(xiě)?謝謝

論壇徽章:
0
2 [報(bào)告]
發(fā)表于 2014-09-03 16:02 |只看該作者
我覺(jué)得你可以按.分割一下字符串,然后判斷每部分是否在字母集合里,如果在那就說(shuō)明是個(gè)地址,  if li[3].split('.')[0] in string.letters:XXXX

論壇徽章:
1
子鼠
日期:2014-08-28 13:27:13
3 [報(bào)告]
發(fā)表于 2014-09-03 16:26 |只看該作者
huangxiaohen 發(fā)表于 2014-09-03 16:02
我覺(jué)得你可以按.分割一下字符串,然后判斷每部分是否在字母集合里,如果在那就說(shuō)明是個(gè)地址,  if li[3].spl ...

字母集合怎么用,python小白,
fr = open (r'text1.txt','r')
fw = open(r'text2.txt','w+')
for text in fr:
    li = text.split(' ')
    tf = re.match(/^(http://){0,1}[A-Za-z0-9][A-Za-z0-9\-\.]+[A-Za-z0-9]\.[A-Za-z]{2,}[\43-\176]*$/,li[3])
    if tf:
       fw.write(text)
fr.close()
fw.close()
這樣可以嗎?

論壇徽章:
5
巨蟹座
日期:2014-08-28 18:12:342015年迎新春徽章
日期:2015-03-04 10:01:4415-16賽季CBA聯(lián)賽之江蘇
日期:2016-04-28 09:43:3115-16賽季CBA聯(lián)賽之吉林
日期:2016-06-22 10:34:4315-16賽季CBA聯(lián)賽之山西
日期:2016-08-16 16:29:55
4 [報(bào)告]
發(fā)表于 2014-09-03 16:26 |只看該作者
你要嚴(yán)格的話 url 就用re 去匹配

論壇徽章:
0
5 [報(bào)告]
發(fā)表于 2014-09-03 16:35 |只看該作者
不用那么麻煩,string.letters  就是所有大小寫(xiě)字母集合了. 導(dǎo)入個(gè)string模塊

論壇徽章:
33
榮譽(yù)會(huì)員
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT運(yùn)維版塊每日發(fā)帖之星
日期:2016-04-17 06:23:27操作系統(tǒng)版塊每日發(fā)帖之星
日期:2016-04-18 06:20:00IT運(yùn)維版塊每日發(fā)帖之星
日期:2016-04-24 06:20:0015-16賽季CBA聯(lián)賽之天津
日期:2016-05-06 12:46:59
6 [報(bào)告]
發(fā)表于 2014-09-03 16:54 |只看該作者
不知道樓主所說(shuō)的 "URL" 判斷標(biāo)準(zhǔn)是啥?

有 http ftp 開(kāi)頭?
域名?
有 .html ?
有 /.../... 這樣 ?

在我看來(lái), 樓主 列出來(lái)的文件中的四個(gè)都可以算做是 URL, 至少, 丟到IE下能可能被訪問(wèn).

論壇徽章:
1
子鼠
日期:2014-08-28 13:27:13
7 [報(bào)告]
發(fā)表于 2014-09-03 16:54 |只看該作者
huangxiaohen 發(fā)表于 2014-09-03 16:35
不用那么麻煩,string.letters  就是所有大小寫(xiě)字母集合了. 導(dǎo)入個(gè)string模塊

好的,我試試,謝謝!

論壇徽章:
0
8 [報(bào)告]
發(fā)表于 2014-09-04 09:14 |只看該作者
我也是初學(xué)者,我是這么寫(xiě)的
import re
p=re.compile('\D')
f=open('hello.txt','r')
fw=open('12.txt','w+')
for i in f.readlines():
    i=i.split()
    if p.match(i[3]):
        fw.write(i[3])
f.close()
fw.close()

論壇徽章:
1
子鼠
日期:2014-08-28 13:27:13
9 [報(bào)告]
發(fā)表于 2014-09-04 10:49 |只看該作者
回復(fù) 8# zhwei228
恩,謝謝!

   
您需要登錄后才可以回帖 登錄 | 注冊(cè)

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號(hào)-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號(hào):11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報(bào)專區(qū)
中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)會(huì)員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過(guò)ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請(qǐng)注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP