- 論壇徽章:
- 0
|
正則表達(dá)式是具有貪婪性的,我們從下面這例談起:
已知str="uid=100(guest) gid=100(others) groups=10(users),11(floppy)"
現(xiàn)在想要得到這個(gè)字符串中的第一個(gè)括號(hào)內(nèi)的值,即guest該怎么辦?假設(shè)$str的括號(hào)外的內(nèi)容是不固定的,不能依據(jù)uid之類的關(guān)鍵字或空格去查找,所依據(jù)的只能是找第一對(duì)括號(hào)內(nèi)的內(nèi)容。
很自然的我們想到用sed,因?yàn)閟ed具有很強(qiáng)的模式匹配的功能,而且能夠?qū)⑵ヅ涞牟糠謨?nèi)容強(qiáng)行記下來(lái)用于輸出。這樣,我們就會(huì)想:
echo $str|sed 's/模式串/\1/'
只要模式串寫好了,在匹配的過(guò)程中把guest這個(gè)字符串摳出來(lái),讓sed記住,然后用\1輸出就可以了。怎么寫這個(gè)模式串?
.*想要匹配"uid=100"
(...)告訴sed要查找括弧內(nèi)的文本
\(.*\)讓sed記住匹配內(nèi)容的常用手段,這里匹配的.*將來(lái)就能用\1取出來(lái)
.*想要匹配" gid=100(others) groups=10(users),11(floppy)"部分
于是我們就寫成了echo $str|sed 's/.*(\(.*\)).*/\1/'
結(jié)果呢,得到的是"floppy",為什么?
正則表達(dá)式是有貪婪性的,它總是與最長(zhǎng)的可能長(zhǎng)度匹配,而且越是排在前面的通配符優(yōu)先級(jí)越高。這一例,第一個(gè).*可以匹配"uid=100(guest) gid=100(others) groups=10(users),11",仍然能保證后面通配符的匹配,那一對(duì)()匹配了floppy左右的括號(hào),最后的.*自然是可有可無(wú)的,所以sed記住的就是floppy。
怎么辦?我們必須打破正則表達(dá)式的貪吃性,用更明確的描述來(lái)實(shí)現(xiàn)這一點(diǎn):
我們考慮如果在模式串中第一個(gè).*中告訴sed這個(gè).*是不能含有"("的,不久可以將.*限制到"uid=100"了嗎?這個(gè)意思我們完全可以用[^(]*來(lái)表達(dá),于是我們修訂剛才的代碼,變成:
echo $str|sed 's/[^(]*(\(.*\)).*/\1/'
似乎應(yīng)該很好了,執(zhí)行的結(jié)果卻是"guest) gid=100(others) groups=10(users),11(floppy",為什么?
原來(lái)仍然是正則表達(dá)是的貪婪性在作怪,雖然我們有效的阻止了第一個(gè).*的貪吃,但是我們對(duì)\(.*\)中的.*卻未加限制,于是它盡可能匹配了"guest) gid=100(others) groups=10(users),11(floppy",還能保證后面" .*"的匹配性。我們?cè)僮飨拗疲嬖Vsed,\(.*\)中的.*不能含有" ",讓它跨不過(guò)guest:
echo $str|sed 's/[^(]*(\([^)]*\)).*/\1/'
這回,輸出結(jié)果終于是我們想要得"guest"了。
問(wèn)題解決了,我們也了解了正則表達(dá)式(或說(shuō)通配符)的貪婪性,于是就可以留個(gè)問(wèn)題給大家,讓大家自己體會(huì)體會(huì):
怎么樣取出str中第二對(duì)括號(hào)的內(nèi)容"others"?
怎么樣取出str中第三對(duì)括號(hào)的內(nèi)容"users"?
怎么樣取出str中第四對(duì)括號(hào)的內(nèi)容"floppy"?(這個(gè)還用說(shuō)嗎,就利用正則表達(dá)式的貪婪性,我們最開始不就實(shí)現(xiàn)它了嘛) |
|