平臺(tái) 論壇博客文庫(kù)

› 論壇 › 程序設(shè)計(jì) › Shell › 轉(zhuǎn)貼 Regular Expression 簡(jiǎn)介(正則表達(dá)式)

最近訪問(wèn)板塊

查看: 18100 | 回復(fù): 3

轉(zhuǎn)貼 Regular Expression 簡(jiǎn)介(正則表達(dá)式) [復(fù)制鏈接]

styr

豐衣足食

論壇徽章:: 0

電梯直達(dá)

1樓 [收藏(0)] [報(bào)告]

發(fā)表于 2005-09-04 09:28 |只看該作者 |倒序?yàn)g覽

根據(jù)這壇里的鏈接找到的臺(tái)灣出品的幾篇好貼,感覺(jué)很不錯(cuò),又受到了一次基礎(chǔ)培訓(xùn)和鞏固復(fù)習(xí).所以收藏后也共享給大家,謝謝!

Regular Expression 簡(jiǎn)介

中央研究院計(jì)算中心
ASPAC 計(jì)劃
aspac@phi.sinica.edu.tw
技術(shù)報(bào)告: 94019
1995 年 2 月 9 日
Version : 1.0

版權(quán)聲明

目錄
Why Regular Expression
組成 Regular Expression 的元素
使用 Regular Expression 時(shí)的注意事項(xiàng)
范例
Appendix : Test using Regular Expression in various environments
HP-UX
Sun Solaris 2.X
AIX 3.2.5
GNU Tools

Why Regular Expression
Regular Expression 是一種字符串表達(dá)的方式. 使用者可使用一個(gè)簡(jiǎn)短的 Regular Expression 來(lái)表示〝具有某特征〞或者〝復(fù)雜難以描述〞的所有字符串. 而日常數(shù)據(jù)處理中, 最常進(jìn)行的工作是『從檔案中找出具有某特征的字符串, 再加以處理(打印,置換, 計(jì)算...)』. 此時(shí), Regular Expression 便可派上用場(chǎng). 使用一個(gè)簡(jiǎn)短的 Regular Expression 便可完全指定需要加以處理的資料 , 避免反復(fù)判斷找尋的困擾. 譬如 :
若使用 MS-DOS 中文字編輯器 edit 的找尋功能, 可來(lái) 找出檔案中所有的 ``prg1.c''; 但 edit 卻無(wú)法一次同時(shí)找尋字符串``prg1.c''、``prg2.c'' ... 或 ``prg8.c''; 必需反復(fù)執(zhí)行八次找尋的動(dòng)作.

可是在 UNIX 中的 vi , 使用一個(gè) Regular Expression `` prg[0-8]\.c'' 便可同時(shí)表示上述八個(gè)字符串, 如此一次就可找出指定的所有字符串.

可見(jiàn) Regular Expression 確實(shí)十分便利. 然而, MS-DOS 下許多工具的設(shè)計(jì)并不支持解讀 Regular Expression. 但 UNIX 環(huán)境下除了 vi 外, 還有許多工具都接受 Regular Expression, 如 : grep、sed、awk、csplit... . 使用這些工具時(shí), 便可應(yīng)用 Regular Expression 來(lái)指定欲找尋的字符串; 并可配合這些工具的其它功能將找尋到的數(shù)據(jù)進(jìn)一步地加以處理.

Regular Expression 的特色是簡(jiǎn)短且表達(dá)力強(qiáng). 它所表達(dá)的可以是某一特定的字符串, 也可以是具有某一共同特征的"所有"字符串(如上例). Regular Expression 中定義了一組特殊字符, 它們代表著某些特別的意義; 使用者可藉這些特殊字符來(lái)表示字符串的下列特征 :

描述組成字符串的元素(components) : 例如 : Regular Expression ``[Tt]he'' 代表字符串 ``The'' 或 ``the''.
限制字符串出現(xiàn)的位置 : 例如 : Regular Expression ``^The'' 代表『出現(xiàn)于行首』的字符串 ``The''.
由于 Regular Expression 具有極佳的字符串表示能力. 往后, 讀者若能多利用 UNIX 上接受 Regular Expression 的工具, 且靈活應(yīng)用 Regular Expression; 則可避免撰寫(xiě)程序進(jìn)行復(fù)雜字符串判斷(parsing) 的麻煩. 如此, 才能真正發(fā)揮各工具的的功能, 減輕數(shù)據(jù)處理時(shí)的負(fù)擔(dān), 并增加數(shù)據(jù)處理的效率.

--------------------------------------------------------------------------------

Note 1
UNIX中定義了數(shù)種字符串表達(dá)方式, Regular Expression 及 Extended Regular Expression 是常見(jiàn)的二種. 另一種是使用于Shell命令列, 將參數(shù)展開(kāi)}(expand)成文件名稱(chēng)的"attern Matching Notation", 這種表示法與 Regular Expressions 的語(yǔ)法差異較大, 甚至有數(shù)項(xiàng)用法相左, 故位未列入本文討論以免讀者混淆.

組成 Regular Expression 的元素
Regular Expression 是由普通字符、及一組具有特殊意義的字符所構(gòu)成. 本節(jié)主要介紹各種特殊字符所代表的意義及其用法. 讀者學(xué)習(xí)時(shí)應(yīng)留心 : 有時(shí), 同一特殊字符, 會(huì)因出現(xiàn)在字符串中不同的位置或連接其它特殊字符, 而有不同的意義. 本文中為有別于一般的字符串, 所有 Regular Expression 都以粗體字體表示, 且加注``Regexp''于其前方.
組成 Regular Expression 的元素及所代表的意義如下 :

[普通字符] 除了``.''、``[''、``]''、``*''、``+''、``?''、 ``|''、``^''、``$''、``{''、``}''、``\''、 ``<''、``>''、``(''、``)'' 外之所有字符.
由普通字符所組成的 Regular Expression 其意義與原字符串字面意義相同. 例如 :

普通字符``A''也可當(dāng)成一個(gè) Regular Expression. Regexp `` A'' 與一般字符``A''代表相同的意義.
Regexp `` the'' 與一般字符串``the''代表相同的意義.
[ .] Metacharacter 用以代表任意一個(gè)字符. 須留心 UNIX Shell 中使用``?''表示任意一個(gè)字符, 使用``*''代表任意長(zhǎng) 度的字符串(這是另一種稱(chēng)為 ``Pattern Matching Notation'' 的字符串表示法). Regular Expression 中則使用`` .'' 來(lái)代表``一個(gè)''任意字符(注意: 并非任意長(zhǎng)度的字符串). 而 Regular Expression 中`` *''另有其它涵意, 并不代表任意長(zhǎng)度的字符串. 例如

Regexp `` .'' 可用以代表任意一個(gè)字符. 如 ``A''、``1''、``+''、...
Regexp `` ...'' 則代表一個(gè)由任意3個(gè)字符所的字符串. 譬如 ``123''、``abc''、``# 1''、...
[ ^] 限制字符串必須出現(xiàn)于行首. (用法見(jiàn)下例)
[ $] 限制字符串必須出現(xiàn)于行末.
[例如 :] Regexp `` ^The'' 用以表示所有出現(xiàn)于行首的字符串``The''. Regexp `` The$'' 用以表示所有出現(xiàn)于行末的字符串``The''. Regexp `` ^The$'' 則用以表示一個(gè)僅含字符串``The''的數(shù)據(jù)列. Regexp `` ^$'' 表示一個(gè)空白的數(shù)據(jù)列（行首與行尾之間未存在任一字符）.

[ \] 將特殊字符還原成字面意義的字符. Regular Expression 中特殊字符將被解釋成特定的意義. 若要表示特殊字符的字面(literal meaning) 意義時(shí), 在特殊字符之前加上 ``\'' 即可.

[例如 :] 使用 Regular Expression 來(lái)表示字符串``a.out''時(shí), 不可寫(xiě)成 Regexp `` a.out''. 因?yàn)閌` .''在 Regular Expression 中是特殊字符, 表示任一字符.
可合乎(match) Regexp `` a.out'' 的字符串將不只 ``a.out'' 一個(gè); 字符串``a2out'',``a3out'', ``aaout''... 都合于 Regexp `` a.out''.
正確的表示法應(yīng)為 : Regexp `` a\.out''

`` \'' 在 Regular Expression 中的另一個(gè)意義是當(dāng)成 Escape character.

[例如 :] `` \t'' 用以表示 tab. `` \n'' 表示換行符號(hào).
[...] 『字符集合』, 用以表示兩中括號(hào)間所有的字符當(dāng)中的任一個(gè).
[例如 : ] Regexp `` [123]'' 可用以表示字符 ``1''、``2'' 或 ``3''. Regexp `` [Tt]'' 可用以表示字符 ``T'' 或 ``t''. 所以, Regexp " [Tt]he" 表示字符串 "The" 或 "the". (注意 : 一個(gè)字符集合僅代表``一個(gè)''字符.)
使用時(shí), 需留心字符集合 [ ] 內(nèi)不可隨意留空白.

例如 : Regexp `` [ Tt ]'' 中括號(hào)內(nèi)有空格符, 故除了可用以表示字符``T''或``t''", 也可代表一個(gè) `` ''(空格符).
- 字符集合中可使用 `` -'' 來(lái)指定字符的區(qū)間, 其用法如下:
Regexp `` [0-9]'' 等于 Regexp `` [0123456789]'' 用以表示任意 "一個(gè)" 阿拉伯?dāng)?shù)字. 同理 Regexp `` [A-Z]'' 用以表示任意 "一個(gè)" 大寫(xiě)英文字母.

但應(yīng)留心 :

Regexp " [0-9a-z]" 并不等于 Regexp " [0-9][a-z]"; 前者表示一個(gè)字符(阿拉伯?dāng)?shù)字或小寫(xiě)英文字母), 后者表示二個(gè)字符.
Regexp " [-9]" 或 " [9-]" 僅用以代表字符 ``9''或 ``-''.
[ [\^{}... ]] 使用 [\^{...]} 產(chǎn)生字符集合的補(bǔ)集(complement set). 其用法如下 :

Regexp `` [^M]'' 用以表示除字符``M''外的``一個(gè)''任意字符
字符集合 `` [Tt]''表示字符 ``T'' 或 ``t''. 若要指定 ``T'' 或 ``t'' 之外的任一個(gè)字符, 可用Regexp `` [^Tt]'' 表示.
Regexp `` [^a-zA-Z]''表示英文字母之外的任一個(gè)字符.
需留心 `` ^''之位置; `` ^'' 必須緊接于 `` ['' 之后, 才代表字符集合的補(bǔ)集.

[例如 :] Regexp `` [0-9^]'' 表示一個(gè)阿拉伯?dāng)?shù)字或字符 `` ^'', 并非代表阿伯?dāng)?shù)字外的任意字符.
* 用以形容其前的字符或字符集合可重復(fù)任意次數(shù)的特殊字符.
`` *'' 形容它前方之字符(或字符集合)可出現(xiàn) 1 次或多次, 或不出現(xiàn). 例如 :

Regexp ``ab*'' 中, `` *'' 形容它前方的字符 ``b'' 可出現(xiàn) 1 次或多次, 或不出現(xiàn). 所以, Regexp ``ab*'' 可表示字符串 ``a''、``ab''、``abb''、 ``abbb''、...
Regexp `` T[0-9]*\.c'' 中, 使用 `` *'' 形容其前的字符集合 `` [0-9]''(一個(gè)阿拉伯?dāng)?shù)字)出現(xiàn)的次數(shù) : 可為 0 次或多次.
故 Regexp `` T[0-9]*\.c''可用以表示 ``T.c''、``T0.c''、 ``T1.c''、``T2.c''、...、``T9.c''、``T00.c''、``T01.c''、``T02.c''、...、 ``T09.c''、``T10.c''、...``T99.c''、``T000.c''、...

[ \<] `` \< Regexp'' 表示一個(gè)出現(xiàn)于"前綴"且又合于(match)該 Regexp 的字符串 (用法見(jiàn)下例).
[ \>] ``Regexp \>'' 表示一個(gè)出現(xiàn)于"字末"且又合于(match)該 Regexp 的字符串.
這里所謂的``字(word)''系指被 tab、逗點(diǎn)、句點(diǎn)或空格符(space) 所分隔開(kāi)的字符串.
[例如 :]
資料 ``One is red, and the other is white.'' 中字符串 ``One'', ``is'', ``red'', ``and'', ``the'', ``other'', ``is'', ``white'' 便是所謂的 "字(word)". 而該資料列中,
合于 Regexp ``[Tt]he''的字符串如下(粗體字標(biāo)示)
``One is red, and the other is white.''
合于 Regexp `` \<[Tt]he\>''卻僅有(粗體字標(biāo)示)
``One is red, and the other is white.''
因同時(shí)使用`` \<''及`` \>'' 限制合于 Regexp `` [Tt]he''的字符串, 必須緊接于前綴及字尾之間; 故 ``other''中的子字符串 ``the''并不合于這個(gè) Regular Expression.

[注 :] \<, \> 這二個(gè)特殊字符, 并不是很通用. 請(qǐng)參考 Appendix A 中的附表.
$ ... )\ 于 Regular Expression 中使用 `` \(''``{ $}''來(lái)括住一部分的 Regular Expression; 其后可用 `` \1'''來(lái)表示第一次被`` $'' `` $'' 括住的部份. 若 Regular Expression 中使用了數(shù)次`` $'' `` $'' 來(lái)括住不同的部分, 則依次使用 ``\1'', `` \2'', `` \3'' ,...(最多可用到 `` \9'')來(lái) 表示之前括住的 Regular Expression. 其用法如下 :

[用法一.]
例如: 欲表示像``aa'',``bb'',``cc'',...``zz'' 等字符串.
使用 Regexp `` [a-z]''則表示任一個(gè)小寫(xiě)的英文字母.
使用 Regexp `` [a-z][a-z]''則表示二個(gè)任意的小寫(xiě)英文字母. 它除表示 ``aa'',``bb'',``cc'',...``zz''等字符串外, 也可表示``ab'', ``ac'',``ad'',...等字符串(這不是題意所要求的字符串).
這時(shí)可以`` $'' `` $'' 來(lái)括住第一個(gè) `` [a-z]'' (Regular Expression 解譯的程序, 會(huì)暫時(shí)記錄實(shí)際找尋到的英文字母). 之后, 便可以 Regexp ``\1'' 來(lái)指定適才被記錄下的英文字母即為所要找尋字符串的第二個(gè)字符. 故正確的表示法如下 :
Regexp `` $[a-z]$\1''

例如 : 欲表示像 ``789w987'', ``abcwcba'', ``theweht'',....等具對(duì)稱(chēng)性的字符串.(該字符串的特征是 ``w''之前后三個(gè)字符相互對(duì)稱(chēng)) 該類(lèi)字符串的表示法如下 :
Regexp `` $.$$.$$.$w\3\2\1" Regexp中`` .''表示任意一個(gè)字符. 因字符``w''之前出現(xiàn)的三個(gè)字符并無(wú) 任何限制, 故可用 `` ...''表之. 但每個(gè)`` .''分別用 `` $'',`` $'' 括住, 之后便可使用 `` \1'', `` \2'', `` \3'' 分別代表將來(lái)實(shí)際匹配到的前三個(gè)字符.

用法二. 進(jìn)行字符串找尋并置換(Replace)時(shí), 若將被置入的新字符串不是一個(gè)固定的字符串, 與被找到的原字符串有關(guān)時(shí)(見(jiàn)下例說(shuō)明). 此時(shí), 可先以 來(lái)括住一部分的Regular Expression; 再于將被新置入的字符串中使用`` \1'', `` \2'',... 來(lái)表示當(dāng)時(shí)被找到的字符串(或其子字符串).
例 : 欲找出檔案中具有 ``prog12.c'', ``prog9.c'', ``prog832.c'',... 等式樣的字符串, 并將其置換成(以上列三個(gè)字符串為例) ``[ note 12]'', ``[ note 9]'', ``[ note 832]''. 在這例子中, 因事先不知道所找尋到的字符串(prog數(shù)字.c)中的數(shù)字為何, 故無(wú)法事先決定應(yīng)換成什么新字符串. 合于本例所要找尋的字符串其 Regular Expression 為 :
Regexp `` prog[0-9][0-9]*\.c'' 上式中 `` [0-9][0-9]*'' 表一位或一位以上的阿拉伯?dāng)?shù)字, 因執(zhí)行前并不知道該部分實(shí)際會(huì)匹配什么數(shù)值, 故找到的字符串將來(lái)應(yīng)置換成什么, 事前無(wú)法指定. 這情況, 也可用`` $'',`` $'' 來(lái)括住 `` [0-9][0-9]* '', 在置換的新字符串中再以 \1 表示找尋時(shí)實(shí)際匹配到的數(shù)字.

讀者可編輯一數(shù)據(jù)文件, 再以sed執(zhí)行下列命令, 觀察其執(zhí)行結(jié)果.

$sed -e 's/ prog$[0-9][0-9]*$\.c/[ note \1]/g' 資料文件名

\{ 數(shù)字, 數(shù)字\} 一種于 Regular Expression 中形容其前的字符或字符集合出現(xiàn)次數(shù)的表示法. 其型態(tài)與用法如下 :

\{下限數(shù)字, 上限數(shù)字\}
例如 : Regexp "[0-9]\{2,4\}"用以表示2到4位的阿拉伯?dāng)?shù)字.
{ 數(shù)字}
例如 : Regexp `` ax\{99\}'' 用以表示一個(gè) ``a'' 之后接上99個(gè) ``x'' 所組成的字符串.
\{下限數(shù)字, \} 例如 : Regexp `` ax\{2,\}'' 用以表示一個(gè) ``a'' 之后接上2個(gè)或更多的 ``x''所組成的字符串.
+ 形容其前的字符或字符集合出現(xiàn)一次或一次以上(注三).
例如 : Regexp `` [0-9]+'' 用以表示一位或一位以上的數(shù)字.

? 形容其前的字符或字符集合可出現(xiàn)一次或不出現(xiàn)(注三).

[例如 :] Regexp ``[+-]?[0-9]+'' 表示數(shù)字(一位以上)之前可出現(xiàn)一個(gè)正負(fù)號(hào) 或不出現(xiàn)正負(fù)號(hào).
[ (...)] 用以括住一群字符,且將之視成一個(gè)group(見(jiàn)下面說(shuō)明)(注三)
例如 :
Regexp `` 12+'' 表示字符串 "12","122","1222","12222",...
Regexp `` (12)+'' 表示字符串 "12","1212","1212","1212"....

上式中字符串 ``12''以( )括住,整個(gè)視為一個(gè)group, 故被重復(fù)符號(hào)``+'' 所形容的是``12''而非 ``2'', 重復(fù)出現(xiàn)的也是 ``12''.

| 表示邏輯上的 "or" (注三)
例如 : Regexp `` Oranges?|apples?|water'' 可用以表示字符串``Orange'', ``Oranges''
或 ``apple'', ``apples''
或 ``water''

注三 : 上列 + , ?, (...), | 等用法, 為 Extended Regular Expression 中新增列的用法. awk 及 egrep 中所使用的 Regular Expression 即為 Extended Regular Expression. 但 vi, sed, grep,...等軟件中并無(wú)這些用法.
& ``&''并非 Regular Expression 中的特殊字符. 但以 Regular Expression 進(jìn)行字符串找尋置換(Replace)時(shí), 常會(huì)用到 ``\&''. \ 在許多 Unix tool 中, 當(dāng) ``\&''出現(xiàn)在『將被置入的新字符串』時(shí), 它用以表示 ``實(shí)際被找到合于所指定的 Regular Expression 的字符串'' (見(jiàn)下例說(shuō)明)
例如 : 找出檔案中所有合乎 Regexp ``a[0-9]*\.c'' 的字符串, 并在其前后加上小括號(hào).依題意要求, 檔案中所有如 ``a12.c'', ``a932.c'', ``a45.c'' ,...等字符串都應(yīng)置換為 ``(a12.c)'', ``(a932.c)'', ``(a45.c)'',.. . . 遇到這情況,可令『將被置入的新字符串』為 `` (&'' 此時(shí), ``&''便是用來(lái)表示實(shí)際上被找到合于 Regexp ``a[0-9]*\.c'' 的字符串.
下列是使用 UNIX 上不同的工具, 來(lái)處理本例要求的字符串置換.

vi 以 vi 編輯該檔案,并在 vi 命令輸入模式下輸入
: s/a[0-9]*\.c/(&/g
sed 執(zhí)行如下命令 ( $ 表 Shell 命令列的提示符號(hào) )
$ sed -e 's/a[0-9]*\.c/ (&/g' 數(shù)據(jù)文件名稱(chēng)
awk 執(zhí)行如下命令 ( $ 表 Shell 命令列的提示符號(hào) )
$ awk '{ gsub(/a[0-9]*\.c/, "(&"; print }' 數(shù)據(jù)文件名稱(chēng)

--------------------------------------------------------------------------------

Note 2:
上列字符在 Regular Expression 中代表特殊意義, 稱(chēng)之為特殊字符. 但 Unix 中不同的指令對(duì) Regular Expression 的解釋能力不盡相同, 故對(duì)特殊字符也有不同的認(rèn)定. 請(qǐng)參考尾頁(yè)附表.

使用 Regular Expression 時(shí)的注意事項(xiàng)
學(xué)習(xí) Regular Expression 除了應(yīng)了解其中特殊字符所代表的意義外; 在實(shí)際應(yīng)用時(shí), 也有一些應(yīng)該注意的事項(xiàng). 倘若忽略了這些特點(diǎn), 往往會(huì) 造成字符串無(wú)法正確比對(duì), 而導(dǎo)至結(jié)果錯(cuò)誤. 本節(jié)除了介紹這些應(yīng)予留心的事項(xiàng)外, 也提供各軟件在解讀 Regular Expression, 進(jìn)行字符串比對(duì)時(shí)所依據(jù)的二項(xiàng)重要原則.

接受 Regular Expression 的指令或工具, 它們找尋字符串時(shí)系按照下列二原則:

由左往右進(jìn)行字符串找尋.
盡可能尋找最長(zhǎng)且合于所指定 Regular Expression 的字符串.
例如 : 應(yīng)用 Regexp `` a.*b''(代表以"a"開(kāi)頭以"b"結(jié)尾的任意字符串),于數(shù)據(jù)列 ``12 3ab0aab4 56'' 中找尋合于該條件的字符串.
該資料列中合于 Regexp `` a.*b'' 的字符串有 ``ab'', ``aab'', ``ab0aab''. 但按上列二原則「由左往右找, 且盡可能尋找最長(zhǎng)的字符串」實(shí)際上被找到的字符串將為 ``ab0aab''.

Regular Expression 有許多不同的版本 UNIX 中不同的指令對(duì)同一個(gè) Regular Expression 可能會(huì)有不同的解釋. 原因是這些指令無(wú)法完全解釋前節(jié)所述 Regular Expression 中所有的特殊字符. 這就是所謂 "Regular Expression 有許多不同的版本"

例如 : egrep 中對(duì) Regexp `` an?'' 解釋成字符串 ``a'' 或 ``an''. 但 vi 中對(duì) Regexp `` an?'' 只解釋成字符串 ``an?''. 因?yàn)?vi 中并不把 `` ?'' 當(dāng)成 Regular Expression 的特殊字原解釋.
Appendix A 附表中列出 UNIX 中常用的指令及它所接受的 Regular Expression 特殊字符.

勿將Shell上所使用的字符串表示法(Pattern Matching Notation) 與 Regular Expression 混淆.
Regexp `` a*'' 用以表示一個(gè)完全由字符 "a" 所組成的任意長(zhǎng)度字符串. 但在 Shell 命令列上執(zhí)行 ``ls a*'', 卻會(huì)列出目前工作目錄下所有以 "a" 開(kāi)頭的檔案與子目錄.兩者對(duì) ``a*'' 的解釋并不相同. 因?yàn)?Shell 所接受的是另一種名為 ``Pattern Matching Notation'' 的表示法, 兩者并不相同請(qǐng)勿混淆.

在含有中文之文字文件中, 使用 Regular Expression 進(jìn)行字符串找尋時(shí), 可能會(huì)發(fā)生錯(cuò)誤.
譬如 : 找尋左大括號(hào)"{", 結(jié)果中文的"程"也被找出. 這并非 Regular Expression 出了錯(cuò)誤. 因每個(gè)中文字都是由 2 個(gè) bytes 組成, 而中文``程''字的后一個(gè) byte 恰被解釋成``{''.所以除非所使用的指令有自動(dòng)避開(kāi)中文字的功能, 否則中文字的后一個(gè) byte 被誤判的機(jī)率并不低. 故讀者在含有中文文字的檔案中, 進(jìn)行字符串找尋并置換時(shí), 最好是逐次確認(rèn)后再行置換.

并非所有軟件都接受 Regular Expression(有解讀 Regular Expression 的能力). 一般而言,就算某軟件(工具)可接受 Regular Expression , 它也并非把所有的字串或參數(shù)當(dāng)成 Regular Expression 解釋. 讀者使用 Regular Expression 時(shí), 應(yīng)先確定該軟件會(huì)把該些字符串當(dāng)成 Regular Expression 解釋(可翻查其 manual page), 如此才可獲得正確的結(jié)果.

范例
本節(jié)列出數(shù)個(gè) Regular Expression 的應(yīng)用簡(jiǎn)例, 供讀者參考. 由這些范例中, 讀者可一窺實(shí)際應(yīng)用時(shí), 如何藉由 Regular Expression 來(lái)表達(dá)字符串, 來(lái)完成某些目的. 至于各指令像 vi, sed, awk, ...中之語(yǔ)法說(shuō)明已非本文所能涵蓋, 讀者請(qǐng)自行參考相關(guān)書(shū)籍.

a. 將檔案中所有字符串 ``Regular Expression'' 或 ``Regular expression'' 換成 ``Regexp''.
以 vi 編輯該檔案, 并在 vi 命令輸入模式下執(zhí)行 :
:1,$ s/ Regular [Ee]xpression/Regexp/g
b. 將檔案中所有具 ``ddd-dddd'' 特征的字符串(d表阿拉伯?dāng)?shù)字)之前插入字符串 ``Tel :''.
以 vi 編輯該檔案, 并在, vi 命令輸入模式下執(zhí)行 :
:1,$ s/[0-9][0-9][0-9]-[0-9][0-9][0-9][0-9]/Tel:&/g
說(shuō)明 : `` &'' 代表執(zhí)行時(shí)實(shí)際合于該 Regular Expression 的字符串.
c. 將檔案中所有俱有 `` program數(shù)字.c'' 特征的字符串換成 ``test數(shù)字.f''.
解法 : 以vi編輯該檔案, 并在vi命令輸入mode下執(zhí)行 :
:1,$ s/ program$[0-9][0-9]**$\.c/test\1.f/g
說(shuō)明 : Regexp `` [0-9][0-9]*'' 表示一位或一位以上的阿拉伯?dāng)?shù)字. `` \1'' 被找到的字符串中的數(shù)值部分. (被$...$括住的部分).
d. 將檔案中第5-13行, 整個(gè)區(qū)域往右移5格(空格符).
解法 : 以vi編輯該檔案, 并在vi命令輸入mode下執(zhí)行
:5,13 s/ .*/ &/

說(shuō)明 : Regexp `` .*" 用以 match 整個(gè)數(shù)據(jù)列(之后以&表之). 并用 `` &''(5個(gè)空白及原先之資料列)取代該列資料.
e. 將上例檔案中的數(shù)據(jù)列(5-13行), 往左移回3格.
解法 : 以vi編輯該檔案, 并在vi命令輸入mode下執(zhí)行
:5,13 s/ \^ ///

說(shuō)明 : 將行首的三個(gè)空格符換成空字符串.
f. 試從一個(gè)檔案的全名中分離出其路徑及文件名.

解法 : 編輯如下的script并取名為 ``sepname''
awk '
BEGIN {
match( ARGV[1], /.*\//)
print "path=", substr(ARGV[1], 1 ,RLENGTH-1)
print "name=", name = substr(ARGV[1], RLENGTH+1 )
} ' $1 }

執(zhí)行 $ sepname /usr/local/bin/xdvi
結(jié)果印出 path= /usr/local/bin
name= xdvi
g. 將檔案中以``From''或``from''為行首的數(shù)據(jù)打印出
執(zhí)行 $ awk '/^[Ff]rom/ ' 數(shù)據(jù)文件文件名

h. 去除擋案中空白行
執(zhí)行 $ sed -e "/ ^$/d"

后語(yǔ)
雖然 Regular Expression 僅是一種字符串的表示方式, 但從上列的范例中不難窺出, 配合接受 Regular Expression 的指令或工具, 其應(yīng)用面將遠(yuǎn)超出找尋字符串及置換字符串. 使用 Regular Expression 不僅擴(kuò)大了字符串的表達(dá)能力, 讓使用者很容易進(jìn)行字符串判斷; 使數(shù)據(jù)處理的過(guò)程便為更為迅速便利.

Appendix : Test using Regular Expression in various environments
HP-UX
下表列出測(cè)試 HP-UX Release 9.0 中常見(jiàn)的工具對(duì) Regular Expression 中各種特殊字符的接受能力.

ex vi sed awk grep egrep 說(shuō)明
. * * * * * *
* * * * * * *
^ * * * * * *
$ * * * * * *
\ * * * * * *
[ ] * * * * * *
與\1...\9 合用(一) * * 把\1...\9用于 Regular Expression 中
與\1...\9 合用(二) * * * - - 把\1...\9用于欲置換的新字符串中
{重復(fù)次數(shù)} * *
{下限,上限} * *
{下限, } * *
\< \> * *
+ * *
? * *
| * *
( ) * *
\ * * * * - -

* 表示該指令有解釋這種特殊字符的能力.
- 表示未測(cè)試該項(xiàng)功能.

Sun Solaris 2.X
下表列出測(cè)試 Sun Solaris 2.x 中常見(jiàn)的工具對(duì) Regular Expression 中各種特殊字符的接受能力

ex vi sed awk grep egrep 說(shuō)明
. * * * * * *
* * * * * * *
^ * * * * * *
$ * * * * * *
\ * * * * * *
[ ] * * * * * *
與\1...\9 合用(一) * * * * 把\1...\9用于 Regular Expression 中
與\1...\9 合用(二) * * * - - 把\1...\9用于欲置換的新字符串中
{重復(fù)次數(shù)} * * * *
{下限,上限} * * * *
{下限, } * * * *
\< \> * * * *
+ * *
? * *
| * *
( ) * *
\ * * * * - -

* 表示該指令有解釋這種特殊字符的能力.
- 表示未測(cè)試該項(xiàng)功能.

AIX 3.2.5
下表列出測(cè)試 AIX 3.2.5 中常見(jiàn)的工具對(duì) Regular Expression 中各種特殊字符的接受能力.

ex vi sed awk grep egrep 說(shuō)明
. * * * * * *
* * * * * * *
^ * * * * * *
$ * * * * * *
\ * * * * * *
[ ] * * * * * *
與\1...\9 合用(一) * * 把\1...\9用于 Regular Expression 中
與\1...\9 合用(二) * * * - - 把\1...\9用于欲置換的新字符串中
{重復(fù)次數(shù)} * *
{下限,上限} * *
{下限, } * *
\< \> * *
+ * *
? * *
| * *
( ) * *
\ * * * * - -

* 表示該指令有解釋這種特殊字符的能力.
- 表示未測(cè)試該項(xiàng)功能.

GNU Tools
下表列出測(cè)試 GNU 所提供的工具對(duì) Regular Expression 中各種特殊字符的接受能力.

sed awk grep -G egrep -E emacs 說(shuō)明
. * * * * *
* * * * * *
^ * * * * *
$ * * * * *
\ * * * * *
[ ] * * * * *
與\1...\9 合用(一) * * 把\1...\9用于 Regular Expression 中
與\1...\9 合用(二) * - - * 把\1...\9用于欲置換的新字符串中
{重復(fù)次數(shù)} * *
{下限,上限} * *
{下限, } * *
\< \> * * * *
+ * * *
? * * *
| * *
( ) * *
\ * * - -

* 表示該指令有解釋這種特殊字符的能力.
- 表示未測(cè)試該項(xiàng)功能.