perlop - Perl の演算子と優先順位
Perl では、演算子はどんな演算を行うかをオペランドの型と独立して決定します。 例えば $x + $y
は常に数値加算で、$x
や $y
に数値でないものが 含まれている場合、まずそれらを数値に変換しようとします。
これは、最初の引数の型によって演算が決定されるその他の多くの動的言語と 対照的です。 これはまた、数値比較用と文字列比較用の 2 種類の演算子があるということです。 例えば $x == $y
は二つの数値の等価性を比較し、$x eq $y
は二つの 文字列を比較します。
しかし、いくつかの例外があります: x
は左オペランドの型によって、 文字列の繰り返しの場合とリストの繰り返しの場合があります; また &
, |
, ^
, ~
は文字列としてのビット演算と数値としてのビット演算の 場合があります。
Perl での演算子の優先順位と結合性は多かれ少なかれ数学のものと似ています。
演算子の優先順位 とは、他の演算子グループよりもしっかりと 結びついている演算子グループがあるということです。 例えば、2 + 4 * 5
の場合、乗算が高い優先順位を持っているので、 2 + 4
が乗算の左オペランドとしてまとめられるのではなく、 4 * 5
が加法の右オペランドとしてまとめられます。 これは、(2 + 4) * 5
ではなく、2 + (4 * 5)
と 書かれたかのようなものです。 従って、この式は 6 * 5 == 30
ではなく 2 + 20 == 22
になります。
演算子の結合性 は、同じ演算子が連続して現れた場合に何が起こるかを 定義します: 通常はそれらが左側と結びつくか右側と結びつくかです。 例えば 9 - 3 - 2
で、減法は左結合なので、 3 - 2
が最初の減法の右オペランドとしてまとめられるのではなく、 9 - 3
が 2 番目の減法の左オペランドとしてまとめられます。 これは、9 - (3 - 2)
ではなく (9 - 3) - 2
と書かれたかのようなものです。 従って、この式は 9 - 1 == 8
ではなく 6 - 2 == 4
になります。
全てのオペランドを評価してから何らかの形で値を結合する 単純な演算子の場合、優先順位と結合性(とかっこ)はそれらの結合操作で ある種の順序要求を暗示します。 例えば 2 + 4 * 5
では、 優先順位が暗示するグループ化によって、 4 と 5 の乗算は 2 と 20 の加算の前に行われる必要があります。 単にこの乗法の結果が加法のオペランドの一つとして必要だからです。 しかし、演算の順序はこれによって完全に決定されるわけではありません: 2 * 2 + 4 * 5
では、両方の乗算は加算の前に行われなければなりませんが、 グループ化は二つの乗算が行われる順序については何も言っていません。 実際の所、Perl には、演算子のオペランドは左から右の順で 評価されるという一般的な規則があります。 &&=
のようないくつかの演算子は、 全く評価されないオペランドとなる特別な評価規則を持ちます; 一般的に、式の中の最上位の演算子がオペランド評価を制御します。
一部の比較演算子は、それらの優先順位と、 同じ優先順位を持つ一部の演算子と 連鎖 させることができます (異なる優先順位を持つ演算子とはできません)。 連鎖というのは、それぞれの比較はそれらの周りの二つの引数に対して 行われ、それぞれの内部引数は二つの比較の一部となり、比較結果は 暗黙に AND されるということです。 従って "$x < $y <= $z"
は、"$y"
が見た目単純な スカラだと仮定すると、 "$x < $y && $y <= $z"
と正確に同じように振る舞います。 AND の短絡は "&&"
と同様に行われ、一つが偽となった時点で一連の連鎖は 停止します。
連鎖比較において、それぞれの引数式は、例え二つの比較の一部となったとしても、 評価されるのは最大 1 回ですが、評価の結果はそれぞれの比較毎に取得されます。 (短絡によって比較が必要でない場合は、まったく評価されません。) これは、内側の引数の計算が高価だったり非決定的だったりする場合に 問題になります。 例えば:
if($x < expensive_sub() <= $z) { ...
これは全体的に次のようなものではなく:
if($x < expensive_sub() && expensive_sub() <= $z) { ...
しかし次のものに近いです:
my $tmp = expensive_sub();
if($x < $tmp && $tmp <= $z) { ...
ここでサブルーチンは 1 回だけ呼び出されます。 しかし、正確に後者のコードのようなものでもありません; なぜなら 連鎖比較は実際には(名前付きかどうかにかかわらず)一時変数を使わないからです; 代入はありません。 これは、式が通常のサブルーチンとして呼び出されるときにはあまり違いは ありませんが、左辺値サブルーチンの呼び出しの場合や、引数式が 他の手段によって何らかの普通でない種類のスカラになった場合には より問題になります。 例えば、引数式が tie されたスカラになった場合、式はスカラを作るために 最大 1 回評価されますが、スカラの値は、実際に使われる比較毎に 1 回、 合計 2 回読み込まれます。
この例で、式は 1 回だけ評価され、tie されたスカラ (式の結果) は、 これら使われる比較毎に取得されます。
if ($x < $tied_scalar < $z) { ...
次の例では、式は 1 回だけ評価され、 tie されたスカラは式の中の演算の 一部として 1 回だけ取得されます。 この演算の結果は比較毎に取得されます; 通常これは、式の結果も演算子オーバーロードによってマジカルでない限り、 関係ありません。
if ($x < $tied_scalar + 42 < $z) { ...
一部の演算子は非結合です; 同じ優先順位の演算子の並びを使うと 文法エラーになります。 例えば、"$x .. $y .. $z"
はエラーです。
Perl の演算子には、以下のような結合性と優先順位 (高い優先順位から 低いものへ並べている) があります。 C から持ってきた演算子の優先順位は、C での優先順位が多少おかしくても、 そのままにしてあります。 (これによって、C を使っている方が Perl に移りやすくなっています。) ごく僅かな例外を別として、全ての演算子はスカラ値のみを持ち、 配列値を持ちません。
左結合 項 リスト演算子 (左方向に対して)
左結合 ->
非結合 ++ --
右結合 **
右結合 ! ~ ~. \ 単項の+ 単項の-
左結合 =~ !~
左結合 * / % x
左結合 + - .
左結合 << >>
非結合 名前付き単項演算子
連鎖 < > <= >= lt gt le ge
連鎖/なし == != eq ne <=> cmp ~~
非結合 isa
左結合 & &.
左結合 | |. ^ ^.
左結合 &&
左結合 || //
非結合 .. ...
右結合 ?:
右結合 = += -= *= など; goto last next redo dump
左結合 , =>
非結合 リスト演算子 (右方向に対して)
右結合 not
左結合 and
左結合 or xor
以下の章では、前述の表の順に、これらの演算子に関して詳述します。
多くの演算子はオブジェクトでオーバーロードできます。 overload を参照して下さい。
「項」は Perl でもっとも優先順位が高いものです。 これには、変数、クォートとクォート的な演算子、括弧で括った任意の式、 引数を括弧で括った任意の関数が含まれます。 実際には、この意味では本当の関数はなく、リスト演算子と関数のように働く 単項演算子が、引数を括弧で括るためそのように見えます。 これらはすべて perlfunc に記述しています。
リスト演算子 (print()
など) や単項演算子 (chdir()
など) は、 すべて次のトークンとして開き括弧が続くと、その演算子と括弧内の引数は、 通常の関数呼び出しのようにもっとも高い優先順位として扱われます。
括弧が無い場合には、print
、sort
、chmod
のようなリスト演算子の 優先順位は、演算子の左側をからすると非常に高く、右側からすると 非常に低く見えます。たとえば、
@ary = (1, 3, sort 4, 2);
print @ary; # prints 1324
では、sort
の右のコンマは sort
よりも前に評価されますが、左側のコンマは 後から評価されます。 言い方を変えると、リスト演算子は自分の後にある引数をすべて使って処理を行ない、 その結果を自分の前の式に対する「項」であるかのように見せるということです。 ただし、括弧には気を付けないといけません:
# 以下は print を行なう前に exit を評価します:
print($foo, exit); # 明らかにやりたいことではないでしょう。
print $foo, exit; # これでもない。
# 以下は exit を評価する前に print を行ないます:
(print $foo), exit; # これがしたかった。
print($foo), exit; # これでもいい。
print ($foo), exit; # これも OK。
また、
print ($foo & 255) + 1, "\n";
の動作を一目見ただけで判断するのは、難しいでしょう。 かっこは print
のために評価される引数リストを囲っています ($foo & 255
の結果が表示されます)。 それから print
の返り値 (通常は 1) に 1 が加えられます。 結果は以下のようになります:
1 + 1, "\n"; # 明らかにやりたいことではないでしょう。
意味したいことを適切に行うには、以下のように書く必要があります:
print(($foo & 255) + 1, "\n");
詳しくは、"Named Unary Operators" を参照してください。
この他に「項」として解析されるものには、do {}
や eval {}
の 構成、サブルーティンやメソッドの呼び出し、無名のコンストラクタ []
と {}
があります。
後の方の "Quote and Quote-like Operators" や "I/O Operators" も参照してください。
C や C++ と同じように "->
" は中置の被参照演算子です。 右側が [...]
, {...}
, (...)
のいずれかの形の添字であれば、左側は配列、 ハッシュ、サブルーチンへのハードリファレンスか シンボリックリファレンスでなければなりません。 (あるいは技術的には、配列またはハードリファレンスが代入可能であれば ハードリファレンスを保持できる場所です。) perlreftut と perlref を参照してください。
そうでなければ、右側はメソッド名かサブルーチンのリファレンスを持った 単純スカラ変数で、左側はオブジェクト (bless されたリファレンス) か クラス名でなければなりません。 perlobj を参照してください。
(メソッド呼び出しの場合ではなく) デリファレンスの場合、 後置デリファレンス
(postderef) 機能によっていくらか拡張されます。 この機能の詳細については、"Postfix Dereference Syntax" in perlref を 参照してください。
"++"
と "--"
は、C の場合と同じように動作します。 つまり、変数の前に置かれれば、値を返す前に変数を 1 インクリメントまたは デクリメントし、後に置かれれば、値を返した後で変数を インクリメントまたはデクリメントします。
$i = 0; $j = 0;
print $i++; # prints 0
print ++$j; # prints 1
C と同様、Perl は いつ 変数がインクリメントまたはデクリメントされるかは 定義されません。 値が返される前か後のどこかで行われる、ということだけがわかります。 これは、同じ文である変数を 2 回修正すると、振る舞いが未定義になることを 意味します。 以下のような文は避けてください:
$i = $i ++;
print ++ $i + $i ++;
Perl は上記の文の結果について保障しません。
インクリメント演算子には、ちょっと風変わりな機能が組み込まれています。 数値が入った変数や、数値の文脈で使われてきた変数を インクリメントする場合には、通常のインクリメントとして動作します。 しかし、その変数が設定されてからずっと文字列の文脈でしか使われていなくて、 空文字列でなく、 /^[a-zA-Z]*[0-9]*\z/
にマッチする値を持っているときには、 個々の文字の範囲を保ちながら桁あげを行なって、文字列としてインクリメントが 行なわれます (マジカルインクリメントと呼ばれます):
print ++($foo = "99"); # prints "100"
print ++($foo = "a0"); # prints "a1"
print ++($foo = "Az"); # prints "Ba"
print ++($foo = "zz"); # prints "aaa"
undef
は常に数値として扱われ、特にインクリメントされる前には 0
に 変換されます(従って、undef のポストインクリメント値は undef
ではなく 0
になります)。
デクリメント演算子には、マジカルなものはありません。
二項演算子の "**"
は指数演算子です。 この演算子は、単項のマイナスよりも結合が強い演算子で、 -2**4
は (-2)**4
ではなく、-(2**4)
と解釈されます。 (これは C の pow(3)
を使って実装されていますので、 内部的には double で動作します。)
一部の指数表現は明確に定義されていません: これは 0**0
, 1**Inf
, Inf**0
などです。 これらの特殊な場合に関して特定の結果を想定しないでください; 結果はプラットフォーム依存です。
単項演算子の "!"
は論理否定を行ないます; つまり「not」ということです。 この演算子の優先順位を低くしたものとして、 not
が用意されています。
単項演算子の "-"
は被演算子が数値または数値に見える文字列であれば、 算術否定を行ないます。 被演算子が識別子ならば、マイナス記号にその識別子をつなげた文字列が返されます。 これ以外で被演算子の最初の文字がプラスかマイナスのときには、 その記号を逆のものに置き換えた文字列を返します。 この規則の結果、-bareword
が文字列 "-bareword"
に等価となります。 しかし、文字列が英字以外("+"
と "-"
を除く)で始まっていると、 Perl は文字列を数値に変換しようとし、それから算術否定が実行されます。 もし文字列が明確に数値に変換できない場合、Perl は Argument "the string" isn't numeric in negation (-) at ... という 警告を出します。
単項演算子の "~"
はビットごとの否定を行ないます; つまり、1 の補数を返します。 例えば、0666 & ~027
は 0640 です。 ("Integer Arithmetic" と "Bitwise String Operators" も参照して下さい。) 結果の幅はプラットホーム依存であることに注意してください: ~0
は 32 ビットプラットホームでは 32 ビット幅ですが、64 ビットプラットホームでは 64 ビット幅なので、特定のビット幅を仮定する場合は、 余分なビットをマスクするために "&"
演算子を使うことを忘れないでください。
Perl 5.28 から、値が 255 を超える文字を含む文字列の 補数を求めようとすると致命的エラーになります。
"bitwise" 機能が use feature 'bitwise'
か use v5.28
で有効にされると、 単項の "~"
は常にその引数を数値として扱い、その代替形式である "~."
はその引数を常に文字列として扱います。 従って 32 ビットプラットフォームでは ~0
と ~"0"
はどちらも 2**32-1 を意味しますが、~.0
と ~."0"
はどちらも "\xff"
になります。 Perl 5.28 まで、この機能は "experimental::bitwise"
カテゴリの警告を 発生させていました。
単項演算子の "+"
は、たとえ文字列に対して用いられた場合にも、何もしません。 関数名に続けて括弧付きの式を書く場合に、関数の引数リストと 解釈されないようにするために用いることができます。 (下記 "Terms and List Operators (Leftward)" の例を参照してください。)
単項演算子の "\"
はリファレンスを生成します。 オペランドが一つの印付きのものの場合、それへのリファレンスを作ります。 オペランドがかっこでくくられたリストの場合、 リストで言及されているものへのリファレンスを作ります。 さもなければオペランドをリストコンテキストとし、 オペランドによって提供されたリストのスカラへのリファレンスのリストを作ります。 perlreftut と perlref を参照してください。 この用法も文字列中のバックスラッシュも、後に続くものが展開されるのを 防ぐことになりますが、動作を混同しないでください。
二項演算子の "=~"
は、スカラ式をパターンマッチに拘束します。 デフォルトで $_
の文字列を検索したり、変更したりする演算があります。 この演算子は、そのような演算を他の文字列に対して行なわせるようにするものです。 右引数は、検索パターン、置換、文字変換のいずれかです。 左引数は、デフォルトの $_
の代わりに検索、置換、文字変換の 対象となるものです。 スカラコンテキストで使うと、返り値は一般的に演算の結果が成功したか否かです。 例外は、/r
(非破壊) オプション付きの置換 (s///
) と 文字変換 (y///
) です; この場合は変換した結果を返します。 リストコンテキストでの振る舞いは演算子に依存します。 詳しくは "Regexp Quote-Like Operators" を、これらの演算子を使った 例については perlretut を参照して下さい。
右引数が検索パターン、置換、文字変換ではなく、式であれば、 それは実行時に決まる検索パターンと解釈されます。 これは、内容が 2 回展開されることを意味することに注意してください; つまり:
'\\' =~ q'\\';
は正しくありません; 正規表現エンジンは最終的にパターン \
を コンパイルしようとして、これは文法エラーと考えるからです。
二項演算子の "!~"
は、返される値が論理否定されることを除いて "=~"
と同じです。
二項演算子の "!~"
を非破壊置換 (s///r
) や変換 (y///r
) で使うと 文法エラーとなります。
二項演算子の "*"
は 2 つの数値の積を返します。
二項演算子の "/"
は 2 つの数値の商を返します。
二項演算子の "%"
は剰余演算子で、一つ目の引数を二つ目の引数で割ったときの 余りを返します。 $m
と $n
の二つの整数の被演算子を取ったとすると: $n
が正の場合、$m % $n
は、$m
から $m
以下の最大の $n
の倍数を引いた値です。 $n
が負の場合、$m % $n
は、$m
から $m
を下回らない 最小の $n
の倍数を引いた値です(従って結果はゼロ以下になります)。 オペランド $m
と $n
が浮動小数点数で、$n
の絶対値 (つまり abs($n)
) が (UV_MAX + 1)
より小さい場合、 $m
と $n
の整数部のみが操作で使われます (注意: ここで UV_MAX
は符号なし整数の最大値を意味します)。 右オペランドの絶対値 (abs($n)
) が (UV_MAX + 1)
以上の場合、 "%"
は、($r = $m - $i*$n)
となる浮動小数点剰余 $r
を計算します; ここで $i
は、$r
が右オペランド $n
と同じ符号 (C の 関数 fmod()
のように左オペランド $m
ではありません) で、 絶対値が $n
より小さいものになるような、ある整数です。 use integer
がスコープ内にある場合、 "%"
は C コンパイラで実装された剰余演算子を使います。 この演算子は被演算子が負の場合の挙動が不確実ですが、 より高速です。
二項演算子の "x"
は繰り返し演算子です。 スカラコンテキストまたは左辺値がかっこで囲まれたり qw//
リストであったりしない場合は、文字列の繰り返しを実行します。 この場合、左オペランドにスカラコンテキストを提供し、 右オペランドによって指定された回数繰り返された左オペランド文字列からなる 文字列を返します。 x
がリストコンテキストで、 左オペランドがかっこでくくられているか qw//
リストの場合、 リスト繰り返しを実行します。 この場合、これは左オペランドへリストコンテキストを提供し、 右オペランドによって指定された回数繰り返された 左オペランドのリストからなるリストを返します。 右オペランドが 0 か負数の場合(負数の場合は警告が出ます)、 コンテキストによって空文字列か空リストを返します。
print '-' x 80; # print row of dashes
print "\t" x ($tab/8), ' ' x ($tab%8); # tab over
@ones = (1) x 80; # a list of 80 1's
@ones = (5) x @ones; # set all elements to 5
二項演算子の "+"
は 2 つの数値の和を返します。
二項演算子の "-"
は 2 つの数値の差を返します。
二項演算子の "."
は 2 つの文字列を連結します。
二項演算子の "<<"
は左引数の値を、右引数で示すビット数だけ、 左にシフトした値を返します。 引数は整数でなければなりません。 ("Integer Arithmetic" も参照して下さい。)
二項演算子の ">>"
は左引数の値を、右引数で示すビット数だけ、 右にシフトした値を返します。 引数は整数でなければなりません。 ("Integer Arithmetic" も参照して下さい。)
use integer
("Integer Arithmetic" を参照してください)が有効な場合、 C の符号付き整数が使われ(算術シフト)、そうでない場合は(例え負のシフトでも) C の符号なし整数が使われます(論理シフト)。 算術右シフトでは符号ビットは左側に複製され、論理シフトでは 0 ビットが 左側から来ます。
どちらの場合も、この実装は Perl がビルドされた整数型のサイズ(32 ビットか 64 ビット)よりも大きい結果を生成することはありません。
負数のビットシフトは逆シフトを意味します: 左シフトは右シフトに鳴り、 右シフトは左シフトになります。 これは、負のシフトが未定義である C とは異なります。
整数のサイズ以上のビット数のシフトは、ほとんどの場合 0 (全てのビットが落ちる) になります; 例外として、use integer
の基で、負の値を超過シフトすると -1 になります。 これは、多すぎるビット数のシフトは未定義である C とは異なります。 一般的な C の振る舞いは「ワードビット数を法としてシフトする」なので、 例えば次のようになります
1 >> 64 == 1 >> (64 % 64) == 1 >> 0 == 1 # Common C behavior.
しかしこれは完全に偶然です。
プラットフォームのネイティブな整数の影響に疲れたなら、use bigint
プラグマは問題を完全にうまく回避します:
print 20 << 20; # 20971520
print 20 << 40; # 5120 on 32-bit machines,
# 21990232555520 on 64-bit machines
use bigint;
print 20 << 100; # 25353012004564588029934064107520
さまざまな名前付き単項演算子が、引数を 1 つ持ち、括弧が省略可能な、 関数として扱われます。
リスト演算子 (print()
など) や単項演算子 (chdir()
など) は、 すべて次のトークンとして開き括弧が続くと、その演算子と括弧内の引数は、 通常の関数呼び出しのようにもっとも高い優先順位として扱われます。 たとえば、名前つき単項演算子は ||
より優先順位が高いので、 以下のようになります:
chdir $foo || die; # (chdir $foo) || die
chdir($foo) || die; # (chdir $foo) || die
chdir ($foo) || die; # (chdir $foo) || die
chdir +($foo) || die; # (chdir $foo) || die
しかし "*"
は名前つき演算子より優先順位が高いので、以下のようになります:
chdir $foo * 20; # chdir ($foo * 20)
chdir($foo) * 20; # (chdir $foo) * 20
chdir ($foo) * 20; # (chdir $foo) * 20
chdir +($foo) * 20; # chdir ($foo * 20)
rand 10 * 20; # rand (10 * 20)
rand(10) * 20; # (rand 10) * 20
rand (10) * 20; # (rand 10) * 20
rand +(10) * 20; # rand (10 * 20)
優先順位に関して、-f
や -M
のようなファイルテスト演算子は、名前付き 単項演算子として扱われますが、この関数のかっこルールは適用されません。 これは、例えば -f($file).".bak"
は -f "$file.bak"
と等価であることを 意味します。
"Terms and List Operators (Leftward)" も参照して下さい。
真か偽の値を返す Perl 演算子は一般的に安全に数値として使える値を返します。 例えば、この節の関係演算子と次の節の等価演算子は、真および、 "0 but true"
と同様、ゼロとカウントされるけれども不適切な数値変換に 関する警告の出ない、定義された空文字列 ""
の特別版に対して 1
を 返します。
二項演算子の "<"
は左引数が数値的に右引数よりも小さければ、 真を返します。
二項演算子の ">"
は左引数が数値的に右引数よりも大きければ、 真を返します。
二項演算子の "<="
は左引数が数値的に右引数よりも小さいか等しければ、 真を返します。
二項演算子の ">="
は左引数が数値的に右引数よりも大きいか等しければ、 真を返します。
二項演算子の "lt"
は左引数が文字列的に右引数よりも小さければ、真を返します。
二項演算子の "gt"
は左引数が文字列的に右引数よりも大きければ、真を返します。
二項演算子の "le"
は左引数が文字列的に右引数よりも小さいか等しければ、 真を返します。
二項演算子の "ge"
は左引数が文字列的に右引数よりも大きいか等しければ、 真を返します。
"$x < $y <= $z"
のような比較演算子の並びは、 "Operator Precedence and Associativity" 節で述べたような形で 連鎖比較を実行します。 より低い優先順位を持つ等価演算子とは連鎖しないことに注意してください。
二項演算子の "=="
は左引数が数値的に右引数と等しければ、真を返します。
二項演算子の "!="
は左引数が数値的に右引数と等しくなければ、真を 返します。
二項演算子の "eq"
は左引数が文字列的に右引数と等しければ、真を返します。
二項演算子の "ne"
は左引数が文字列的に右引数と等しくなければ、真を 返します。
"$x == $y == $z"
のような上述の等価演算子の並びは、 "Operator Precedence and Associativity" 節で述べたような形で 連鎖比較を実行します。 より高い優先順位を持つ比較演算子とは連鎖しないことに注意してください。
二項演算子の "<=>"
は左引数が数値的に右引数より小さいか、等しいか、 大きいかに従って、-1, 0, 1 を返します。 数値として NaN
(非数) に対応しているプラットフォームでは、 それに対して "<=>"
を使うと undef を返します。 NaN
はどの値に対しても(NaN
に対してでさえも) "<"
, "=="
, ">"
, "<="
, ">="
のいずれも成立しないので、これらは全て 偽となります。 NaN != NaN
は真を返しますが、 NaN !=
その他のどの値でも です。 NaN
に対応していないプラットフォームでは、NaN
は単に数としての値 0 を 持つ文字列です。
$ perl -le '$x = "NaN"; print "No NaN support here" if $x == $x'
$ perl -le '$x = "NaN"; print "NaN support here" if $x != $x'
(bigint, bigrat, bignum プラグマは全て "NaN"
に対応していることに 注意してください。)
二項演算子の "cmp"
は左引数が文字列的に右引数より小さいか、 等しいか、大きいかに従って、-1, 0, 1 を返します。
二項演算子の "~~"
はその引数に対してスマートマッチングを行います。 スマートマッチングについては次の節で述べられています。
両面順序演算子 "<=>"
, "cmp"
および、 スマートマッチング演算子 "~~"
は、互いに、および同じ優先順位の 演算子に対しては非結合です。
"lt"
, "le"
, "ge"
, "gt"
, "cmp"
は照合を含む use locale
型式が有効な場合は、現在の LC_COLLATE
ロケールで 指定された照合(ソート)順が使われます。 perllocale を参照して下さい。 これらを Unicode と混ぜないでください; 伝統的な 8 ビットロケールコーディングでのみ使ってください。 標準の Unicode::Collate
と Unicode::Collate::Locale
モジュールは、 照合問題に関する遥かに強力な解決法を提供します。
大文字小文字を無視した比較に関しては、Perl v5.16 以降で利用可能な "fc" in perlfunc 大文字小文字畳み込み関数を参照してください:
if ( fc($x) eq fc($y) ) { ... }
二項演算子の isa
は、左側の引数が右側の引数で与えられた クラス(またはこのクラスから派生した下位クラス)の オブジェクトインスタンスである場合に真と評価されます。 左側の引数が、未定義、bless されたオブジェクトインスタンスではない、 右側の引数で与えられたクラスから派生していない、のいずれかの場合、 この演算子は偽として評価されます。 右側の引数は、裸の単語か、クラス名の文字列となるスカラ式を与えます:
if( $obj isa Some::Class ) { ... }
if( $obj isa "Different::Class" ) { ... }
if( $obj isa $name_of_class ) { ... }
これは Perl 5.31.6 からの実験的な機能で、use feature 'isa'
によって 有効化されると利用可能になります。 これは experimental::isa
カテゴリの警告を出力します。
Perl 5.10.1 で最初に現れた (5.10.0 版は異なった振る舞いでした)、2 項 ~~
は 引数に対する「スマートマッチング」を行います。 これはほとんど perlsyn で記述されている when
構文で暗黙に使われますが、 when
節だけがスマートマッチング演算子を呼び出すわけではありません。 全ての Perl の演算子の中で唯一、スマートマッチング演算子は再帰できます。 スマートマッチング演算子は 実験的 で、その振る舞いは 変更されることがあります。
また、その他全ての Perl 演算子はそのオペランドにコンテキスト(通常は 文字列または数値コンテキスト)を割り当てて、オペランドを割り当てた コンテキストに自動変換します。 一方、スマートマッチングはそのオペランドの実際の型からコンテキストを 推論 して、適切な比較機構を選択するためにその型情報を使います。
~~
演算子はオペランドを「多態的に」比較します; どのように比較するかの 決定は、実際の型 (数値、文字列、配列、ハッシュなど) に基づきます。 同じ優先順位を共有する等価演算子のように、 ~~
は真では 1 を、偽では ""
を返します。 これはしばしば "in", "inside of", "is contained in" と呼ぶのが最良です; なぜなら左オペランドはしばしば右オペランドの 内側 を探すからです。 これにより、スマートマッチングオペランドへのオペランドの順序はしばしば 正規表現演算子のものと逆になります。 言い換えると、「より小さい」ものが普通は左オペランドに置かれ、より 大きいものが右側に置かれます。
スマートマッチングの振る舞いは、次の表で決定されるように、引数がどんな 型かに依存します。 型が適用される表の最初の行は、スマートマッチングの振る舞いを決定します。 実際に何が起こるかはほとんどの場合 2 番目のオペランドの型で決定されるので、 表は左ではなく右オペランドでソートされています。
左 右 説明と擬似コード
===============================================================
Any undef Any が未定義かどうか調べる
like: !defined Any
Any Object Object に対する ~~ オーバーロードを起動するか die
右被演算子が 配列:
左 右 説明と擬似コード
===============================================================
ARRAY1 ARRAY2 ARRAY1 と ARRAY2 の組の要素に対して再帰 [2]
like: (ARRAY1[0] ~~ ARRAY2[0])
&& (ARRAY1[1] ~~ ARRAY2[1]) && ...
HASH ARRAY いずれかの ARRAY 要素が HASH キーに存在するか
like: grep { exists HASH->{$_} } ARRAY
Regexp ARRAY いずれかの ARRAY 要素が Regexp でマッチングするか
like: grep { /Regexp/ } ARRAY
undef ARRAY ARRAY 内の undef
like: grep { !defined } ARRAY
Any ARRAY それぞれの ARRAY 要素に対してスマートマッチング [3]
like: grep { Any ~~ $_ } ARRAY
右被演算子がハッシュ:
左 右 説明と擬似コード
===============================================================
HASH1 HASH2 HASH1 と HASH2 両方が全て同じキー
like: keys HASH1 ==
grep { exists HASH2->{$_} } keys HASH1
ARRAY HASH いずれかの ARRAY 要素が HASH キーに存在するか
like: grep { exists HASH->{$_} } ARRAY
Regexp HASH いずれかの HASH キーが Regexp でマッチングするか
like: grep { /Regexp/ } keys HASH
undef HASH 常に偽 (undef はキーになれない)
like: 0 == 1
Any HASH HASH キーが存在するか
like: exists HASH->{Any}
右被演算子がコードリファレンス:
左 右 説明と擬似コード
===============================================================
ARRAY CODE 全ての ARRAY 要素に対してサブルーチンが真を返す [1]
like: !grep { !CODE->($_) } ARRAY
HASH CODE 全ての HASH キーに対してサブルーチンが真を返す [1]
like: !grep { !CODE->($_) } keys HASH
Any CODE サブルーチンに Any を渡して真を返す
like: CODE->(Any)
右被演算子が正規表現:
左 右 説明と擬似コード
===============================================================
ARRAY Regexp いずれかの ARRAY 要素が Regexp にマッチングするか
like: grep { /Regexp/ } ARRAY
HASH Regexp いずれかの HASH キーが Regexp にマッチングするか
like: grep { /Regexp/ } keys HASH
Any Regexp パターンマッチング
like: Any =~ /Regexp/
その他:
左 右 説明と擬似コード
===============================================================
Object Any Object に対して ~~ のオーバーロードを起動、
あるいは次にフォールバック…
Any Num 数値の等価性
like: Any == Num
Num nummy[4] 数値の等価性
like: Num == nummy
undef Any 未定義かどうかを調べる
like: !defined(Any)
Any Any 文字列の等価性
like: Any eq Any
注意:
スマートマッチングは bless されていないハッシュや配列のリファレンスを暗黙に デリファレンスするので、それらの場合では HASH
と ARRAY
の エントリが適用されます。 bless されたリファレンスでは、Object
エントリが適用されます。 ハッシュに関連するスマートマッチングはキーのみを考慮し、ハッシュの値は 考慮しません。
"like" コードエントリは常に正確な処理を行うわけではありません。 例えば、スマートマッチング演算子は可能なら短絡しますが、grep
はしません。 また、スカラコンテキストでは grep
はマッチングした数を返しますが、 ~~
は真か偽かのみを返します。
ほとんどの演算子と異なり、スマートマッチング演算子は undef
を特別に 扱う方法を知っています:
use v5.10.1;
@array = (1, 2, 3, undef, 4, 5);
say "some elements undefined" if undef ~~ @array;
それぞれのオペランドは修正されたスカラコンテキストと考えられます; 修正というのは、配列とハッシュの変数は演算子にリファレンスが渡され、 暗黙にデリファレンスされます。 それぞれの組のどちらの要素も同じです:
use v5.10.1;
my %hash = (red => 1, blue => 2, green => 3,
orange => 4, yellow => 5, purple => 6,
black => 7, grey => 8, white => 9);
my @array = qw(red blue green);
say "some array elements in hash keys" if @array ~~ %hash;
say "some array elements in hash keys" if \@array ~~ \%hash;
say "red in array" if "red" ~~ @array;
say "red in array" if "red" ~~ \@array;
say "some keys end in e" if /e$/ ~~ %hash;
say "some keys end in e" if /e$/ ~~ \%hash;
二つの配列は、最初の配列のそれぞれの要素が、二つ目の配列の対応する要素に (つまり "in") 再帰的にスマートマッチングするときに、スマートマッチングします。
use v5.10.1;
my @little = qw(red blue green);
my @bigger = ("red", "blue", [ "orange", "green" ] );
if (@little ~~ @bigger) { # true!
say "little is contained in bigger";
}
スマートマッチング演算子はネストした配列を再帰するので、これは "red" が 配列にいると報告するままです。
use v5.10.1;
my @array = qw(red blue green);
my $nested_array = [[[[[[[ @array ]]]]]]];
say "red in array" if "red" ~~ $nested_array;
二つの配列が互いにスマートマッチングすると、次の例が報告しているように、 互いの値のディープコピーになります:
use v5.12.0;
my @a = (0, 1, 2, [3, [4, 5], 6], 7);
my @b = (0, 1, 2, [3, [4, 5], 6], 7);
if (@a ~~ @b && @b ~~ @a) {
say "a and b are deep copies of each other";
}
elsif (@a ~~ @b) {
say "a smartmatches in b";
}
elsif (@b ~~ @a) {
say "b smartmatches in a";
}
else {
say "a and b don't smartmatch each other at all";
}
$b[3] = 4
に設定すると、"a and b are deep copies of each other" と 報告されるのではなく、"b smartmatches in a"
と報告されます。 これは、@a
の対応する位置には(最終的に)中に 4 がある配列を 含んでいるからです。
あるハッシュを他のものとスマートマッチングすると、両方に同じキーが 含まれているかどうかを報告し、それ以上でもそれ以下でもありません。 これは、値を気にせずに、二つのレコードが同じフィールド名を持っているか どうかを見るのに使えるかもしれません。 例えば:
use v5.10.1;
sub make_dogtag {
state $REQUIRED_FIELDS = { name=>1, rank=>1, serial_num=>1 };
my ($class, $init_fields) = @_;
die "Must supply (only) name, rank, and serial number"
unless $init_fields ~~ $REQUIRED_FIELDS;
...
}
しかし、これは $init_fields
が確かにハッシュリファレンスである場合にのみ 考えている通りに動作します。 $init_fields ~~ $REQUIRED_FIELDS
という条件は、文字列 "name"
, "rank"
, "serial_num"
および、 "name"
, "rank"
, "serial_num"
のいずれかを含むような 配列リファレンスでも成立します。
スマートマッチング演算子は when
節の暗黙の演算子としてもっともよく 使われます。 perlsyn の "Switch Statements" の節を参照してください。
オブジェクトの基となる表現に依存することを避けるために、スマートマッチングの 右オペランドが ~~
をオーバーロードしないオブジェクトなら、例外 "Smartmatching a non-overloaded object breaks encapsulation
" が発生します。 これは、何かがオブジェクトに「含まれている」かどうかを知るために 調べる筋合いではないからです。 次のものは ~~
のオーバーロードがなければ全て不正です:
%hash ~~ $object
42 ~~ $object
"fred" ~~ $object
しかし、~~
演算子をオーバーロードすることにオブジェクトが スマートマッチングする方法を変更できます。 これにより通常のスマートマッチングの意味論を拡張できます。 ~~
のオーバーロードを持つオブジェクトについては、overload を 参照してください。
左オペランドにオブジェクトを使うことは許されていますが、あまり 有用ではありません。 スマートマッチングの規則はオーバーロードより優先順位が高いので、例え 左オペランドのオブジェクトがスマートマッチングのオーバーロードを 持っていても、無視されます。 左オペランドがオーバーロードされていないオブジェクトなら、ref
演算子が 返したものに従って、文字または数値比較にフォールバックします。 これは、
$object ~~ X
は X
を引数としてオーバーロードメソッドを起動 しない ということです。 通常通り前述の表を見て X
の型に依存するのではなく、オーバーロードは 起動されるかもしれませんし、されないかもしれません。 単純な文字列や数値については、"in" は以下と等価になります:
$object ~~ $number ref($object) == $number
$object ~~ $string ref($object) eq $string
例えば、これは "handle smells IOish" と報告します (しかし実際にこれを しないでください!):
use IO::Handle;
my $fh = IO::Handle->new();
if ($fh ~~ /\bIO\b/) {
say "handle smells IOish";
}
これは、$fh
を "IO::Handle=GLOB(0x8039e0)"
のような文字列として扱い、 それからパターンはこれに対してマッチングするからです。
二項演算子の "&"
は、両オペランドのビットごとに論理積をとって、 その結果を返します。 数値 ("Integer Arithmetic") 参照) でもビット文字列 ("Bitwise String Operators" 参照) でもないオペランドに対してこの演算を 実行した場合、現在のところ警告は出ませんが、結果は未定義です。
"&"
は関係演算子より優先順位が低いので、例えば以下のようなテストでは、 かっこが重要です:
print "Even\n" if ($x & 1) == 0;
use feature 'bitwise'
か use v5.28
によって "bitwise" 機能が 有効になっている場合、この演算子はオペランドを常に数値として扱います。 Perl 5.28 より前ではこの機能は "experimental::bitwise"
カテゴリの 警告が出力されていました。
二項演算子の "|"
は、両オペランドのビットごとに論理和をとって、 その結果を返します。
二項演算子の "^"
は、両オペランドのビットごとに排他論理和をとって、 その結果を返します。
数値 ("Integer Arithmetic") 参照) でもビット文字列 ("Bitwise String Operators" 参照) でもないオペランドに対してこれらの演算を 実行した場合、現在のところ警告は出ませんが、結果は未定義です。
"|"
と "^"
は関係演算子より優先順位が低いので、例えば以下のような テストでは、かっこが重要です:
print "false\n" if (8 | 2) != 10;
use feature 'bitwise'
か use v5.28
によって "bitwise" 機能が 有効になっている場合、この演算子はオペランドを常に数値として扱います。 Perl 5.28 より前ではこの機能は "experimental::bitwise"
カテゴリの 警告が出力されていました。
二項演算子の "&&"
は、短絡の論理積演算を行ないます。 つまり、左被演算子が偽であれば、右被演算子は評価さえ 行なわれないということです。 評価される場合には、スカラーかリストかというコンテキストは、 右被演算子にも及びます。
二項演算子の "||"
は、短絡の論理和演算を行ないます。 つまり、左被演算子が真であれば、右被演算子は評価さえ 行なわれないということです。 評価される場合には、スカラーかリストかというコンテキストは、 右被演算子にも及びます。
C では直接等価なものはありませんが、Perl の //
演算子は C スタイル 論理和に関連しています。 実際、左辺の真偽ではなく定義されているかを判定することを除けば ||
と同じです。 従って EXPR1 // EXPR2
は、EXPR1
が定義されていればその値を 返し、さもなければ、EXPR2
の値を返します。 (EXPR1
はスカラコンテキストで、EXPR2
は //
自身の コンテキストで評価されます。) 普通はこれは defined(EXPR1) ? EXPR1 : EXPR2
と同じ結果になり 完全に等価です (例外は 3 項演算子形式は左辺値として使えますが、 EXPR1 // EXPR2
は使えません)。 これは、変数に対するデフォルト値を設定するのにとても有用です。 実際に、$x
と $y
の少なくとも片方が定義されているかを判定したいなら、 defined($x // $y)
を使ってください。
||
, //
, &&
演算子は、(C のように 単に 0 や 1 を返すのではなく) 最後に評価された値を返します。 これにより、かなり一般的に使えるホームディレクトリを探す方法は:
$home = $ENV{HOME}
// $ENV{LOGDIR}
// (getpwuid($<))[7]
// die "You're homeless!\n";
特に、これは代入のために二つの集合を選択するためには 使うべきではないことを意味します。
@a = @b || @c; # This doesn't do the right thing
@a = scalar(@b) || @c; # because it really means this.
@a = @b ? @b : @c; # This works fine, though.
Perl では、フロー制御に使う場合の &&
と ||
の同義語として、 and
演算子と or
演算子が用意されています (下記参照)。 短絡の動作は全く同じです。 しかし、"and"
と "or"
の優先順位はかなり低くしてあるので、引数に括弧を 使っていないリスト演算子のあとに続けて使う場合にも、 安心して使うことができます:
unlink "alpha", "beta", "gamma"
or gripe(), next LINE;
C スタイルの演算子では以下のように書く必要があります。
unlink("alpha", "beta", "gamma")
|| (gripe(), next LINE);
次のようにして書き込みをより読みやすくすることもできます:
unless(unlink("alpha", "beta", "gamma")) {
gripe();
next LINE;
}
代入で "or"
を使うと、したいことと違うことになります; 以下を 参照して下さい。
二項演算子の ".."
は範囲演算子で、使われるコンテキストによって 異なる動作をする 2 つの演算子を合わせたものです。 リストコンテキストでは、左の値から右の値まで (1 づつ昇順で) 数えあげた値から なるリストを返します。 左側の値が右側の値より大きい場合は、空リストを返します。 範囲演算子は、foreach (1..10)
のようなループを書くときや、 配列のスライス演算を行なうときに便利です。 現状の実装では、foreach
ループの式の中で範囲演算子を使っても 一時配列は作りませんが、古い Perl は以下のようなことを書くと、 大量のメモリを消費することになります:
for (1 .. 1_000_000) {
# code
}
範囲演算子は、マジカル自動インクリメントを使うことで文字列でも動作します; 以下を参照してください。
スカラコンテキストで使われたときには、".."
は真偽値を返します。 この演算子は、フリップフロップのように 2 値安定で、 sed や awk や多くのエディタでの行範囲 (コンマ) 演算子を エミュレートするものとなります。 各々の ".."
演算子は、例えそれを含むサブルーチンの呼び出しを またいでも、それぞれに独立して自分の真偽状態を管理します。 はじめは、左被演算子が偽である間、演算全体も偽となっています。 いったん左被演算子が真になると、範囲演算子は、右被演算子が真である間、 真を返すようになります; 範囲演算子が再び偽になった 後 です。 次に範囲演算子が評価されるまでは、偽とはなりません。 (awk でのように) 真となった、その評価の中で右被演算子をテストし、 偽とすることができますが、1 度は真を返すことになります。 sed でのように、次に評価されるまで右被演算子をテストしたくなければ、 2 個のドットの代わりに 3 つのドット ("..."
) を使ってください。 その他の点では、"..."
は ".."
と同様に振舞います.
右被演算子は、演算子の状態が「偽」である間は評価されることがなく、 左被演算子は、演算子の状態が「真」である間は評価されることがありません。 優先順位は、|| と && の少し下です。 偽としては空文字列が返され、 真としては (1 から始まる) 通し番号が返されます。 この通し番号は、新たに範囲が始まるごとにリセットされます。 範囲の最後の通し番号には、文字列 "E0"
が末尾につけられます; これは、 数値としては何の影響もありませんが、範囲の終わりで何か特別なことをしたい 場合に、目印として使うことができます。 範囲の始まりを除きたい場合には、通し番号が 1 よりも大きくなるのを 待てばよいでしょう。
スカラの ".."
の被演算子が定数表現であるときは、その被演算子は暗黙に、 現在の入力行番号(変数 $.
) と等しい(==
) 場合に真となります。
とても細かい話をすると、比較は実際には int(EXPR) == int(EXPR)
ですが、 これは浮動小数点数を使うときにだけ問題になります; 前の段落で記述したように 明示的に $.
を使ったとき、比較は int(EXPR) == int($.)
となり、 $.
に浮動小数点数がセットされ、ファイルから読み込みを行わない場合にのみ 問題になります。 さらに、"span" .. "spat"
や 2.18 .. 3.14
は、それぞれの オペランドが整数表現を使って評価されるため、スカラコンテキストでは 望みどおりの結果になりません。
例:
スカラ演算子として:
if (101 .. 200) { print; } # print 2nd hundred lines, short for
# if ($. == 101 .. $. == 200) { print; }
next LINE if (1 .. /^$/); # skip header lines, short for
# next LINE if ($. == 1 .. /^$/);
# (typically in a loop labeled LINE)
s/^/> / if (/^$/ .. eof()); # quote body
# parse mail messages
while (<>) {
$in_header = 1 .. /^$/;
$in_body = /^$/ .. eof;
if ($in_header) {
# do something
} else { # in body
# do something else
}
} continue {
close ARGV if eof; # reset $. each file
}
以下は二つの範囲演算子の違いを示す単純な例です:
@lines = (" - Foo",
"01 - Bar",
"1 - Baz",
" - Quux");
foreach (@lines) {
if (/0/ .. /1/) {
print "$_\n";
}
}
このプログラムは "Bar" を含む行だけを表示します。 範囲演算子を ...
に変更すると、"Baz" の行も表示します。
これはリスト演算子の例です:
for (101 .. 200) { print } # $_ を 100 回出力
@foo = @foo[0 .. $#foo]; # 高価な no-op
@foo = @foo[$#foo-4 .. $#foo]; # 末尾の 5 アイテムをスライス
それぞれのオペランドは整数の形で評価されるので、2.18 .. 3.14
は リストコンテキストでは二つの要素を返します。
@list = (2.18 .. 3.14); # @list = (2 .. 3); と同じ
リストコンテキストでの範囲演算子は、両方のオペランドが 文字列であるときには、次の規則に従って、マジカルインクリメントの 機能が使えます。
一つの例外(後述)を除いて、 両側の文字列が Perl にとって数値に見える場合、 マジカルインクリメントは適用されず、代わりにその文字列は数値として (より正確には、整数として)扱われます。
例えば、"-2".."2"
は -2..2
と同じで、 "2.18".."3.14"
は 2, 3
を生成します。
前述の規則の例外として、 左側の文字列が 0
で始まっていて 2 文字以上の場合、 "01"
のような文字列は通常 Perl にとって数値に見えるにも関わらず、 この場合はマジカルインクリメントは 適用されます 。
例えば、"01".."04"
は "01", "02", "03", "04"
を生成し、 "00".."-1"
は "00"
から "99"
を生成します - これは驚きがあるかも しれませんが、なぜこれがこのように動作するのかについては 次の規則を見てください。 先頭に 0 があるものから日付を取り出すために、次のようにできます:
@z2 = ("01" .. "31");
print $z2[$mday];
文字列が数値として解釈することを強制したいなら、次のようにできます:
@numbers = ( 0+$first .. 0+$last );
注意: Perl バージョン 5.30 以下では、左側が "0"
で始まる 任意の 文字列 (文字列 "0"
自体を含む)は、マジカル文字列 インクリメントを引き起こします。 つまり、これらの Perl バージョンでは、"0".."-1"
は "0"
から "99"
までを生成しますが、これは空のリストを生成する 0..-1
と 矛盾していました。 また、"0"."9"
では、文字列のリストではなく整数のリストが 生成されるということです。
指定された初期値がマジカルインクリメント処理の一部でない場合 (つまり、/^[a-zA-Z]*[0-9]*\z/
にマッチングする、空でない文字列の場合)、 初期値のみが返されます。
例えば、"ax".."az"
は "ax", "ay", "az"
を生成しますが、 "*x".."az"
は "*x"
だけを生成します。
マジカルインクリメントの規則に従う文字列がもう片方の初期値の場合、 対応する並びが返されます。
例えば以下のように書くと:
@alphabet = ("A" .. "Z");
英語の大文字すべてを得られますし:
$hexdigit = (0 .. 9, "a" .. "f")[$num & 15];
と書けば、16 進の数字が得られます。
マジカルインクリメントによって得られる値の中に指定した最終値に ちょうど一致するものが見つからないような場合には、 マジカルインクリメントによって得られる次の値の文字列長が、 最終値として指定した値のものより長くなるまでインクリメントが続けられます。 最終値の文字列の長さが最初のものより短い場合、 空リストが返されます。
例えば、"a".."--"
は "a".."zz"
と同じで、 "0".."xx"
は "0"
から "99"
を出力し、 "aaa".."--"
は空リストを返します。
Perl 5.26 から、文字列に対するリストコンテキスト範囲演算子は、 "use feature 'unicode_strings"
のスコープの中で想定通りに 動作するようになりました。 以前のバージョン、およびこの機能のスコープの外側では、 これは "The "Unicode Bug"" in perlunicode を起こしていました: その振る舞いは範囲の両端の内部エンコーディングに依存していました。
マジカルインクリメントは /^[a-zA-Z]*[0-9]*\z/
にマッチングする 空でない文字列でのみ動作するので、 以下はαのみを返します:
use charnames "greek";
my @greek_small = ("\N{alpha}" .. "\N{omega}");
両方のシグマを含む、25 文字の伝統的な小文字のギリシャ文字を得るためには、 代わりに以下のようにしてください:
use charnames "greek";
my @greek_small = map { chr } ( ord("\N{alpha}")
..
ord("\N{omega}")
);
しかし、小文字のギリシャ文字はここに書いたものよりも たくさん あるので、 正規表現で小文字のギリシャ文字にマッチングさせるためには、 /(?:(?=\p{Greek})\p{Lower})+/
というパターン (または 実験的機能 である /(?[ \p{Greek} & \p{Lower} ])+/
) を使います。
三項演算子の "?:"
は、C の場合と同じ条件演算子です。 これは、if-then-else のように働きます。 "?"
の前の引数が真であれば ":"
の前の引数が返されますが、 真でなければ、":"
の後の引数が返されます。 例えば:
printf "I have %d dog%s.\n", $n,
($n == 1) ? "" : "s";
スカラコンテキストかリストコンテキストかという状況は、 選択された 2 番目もしくは 3 番目の引数にまで伝わります。
$x = $ok ? $y : $z; # スカラを取る
@x = $ok ? @y : @z; # 配列を取る
$x = $ok ? @y : @z; # うわ、これは単なる数です!
2 番目と 3 番目の引数双方が左辺値 (代入可能ということ)であれば、 この演算子に代入を行なうこともできます:
($x_or_y ? $x : $y) = $z;
この演算子は代入可能な結果を生み出すので、 括弧なしで代入を行うとおかしくなるかもしれません。 例えばこれは:
$x % 2 ? $x += 10 : $x += 2
以下を意味し:
(($x % 2) ? ($x += 10) : $x) += 2
以下のようにはなりません:
($x % 2) ? ($x += 10) : ($x += 2)
恐らく以下のようにもっと単純に書くべきでしょう:
$x += ($x % 2) ? 10 : 2;
"="
は通常の代入演算子です。
代入演算子は C の場合と同様の働きをします。 つまり、
$x += 2;
は以下と等価です:
$x = $x + 2;
しかし、tie()
のようなもので起こる左辺値の被参照による 副作用が 2 回起こることはありません。 他の代入演算も同様に働きます。 以下のものが認識されます:
**= += *= &= &.= <<= &&=
-= /= |= |.= >>= ||=
.= %= ^= ^.= //=
x=
グループ分けしてありますが、これらはいずれも代入演算子として 同じ優先順位となっています。 これらの複合代入演算子はスカラとしてのみ動作しますが、一方 通常の代入演算子は配列、スカラ、リスト、リファレンスに代入できます。 ("Context", "List value constructors" in perldata, "Assigning to References" in perlref を参照してください。)
C と違って、スカラ代入演算子は有効な左辺値を作り出します。 代入を修正することは、代入を行なってから、その代入された変数を修正するのと 同じことになります。 これは、以下のように何かのコピーを変更したいときに便利です:
($tmp = $global) =~ tr/13579/24680/;
しかし 5.14 現在、これは次のようにしてもできるようになりました:
use v5.14;
$tmp = ($global =~ tr/13579/24680/r);
同様に、
($x += 2) *= 3;
は以下と等価です:
$x += 2;
$x *= 3;
同様に、リストコンテキストでのリストへの代入は代入可能な左辺値のリストとなり、 スカラコンテキストでのリストへの代入は代入の右側の式で作成された 要素の数を返します。
三つのドット付きビット単位代入演算子 (&.=
|.=
^.=
) は Perl 5.22 からの新しいものです。 "Bitwise String Operators" を参照してください。
二項演算子の ","
はコンマ演算子です。 スカラコンテキストではその左引数を評価し、その値を捨てて、 それから右引数を評価し、その値を返します。 これはちょうど、C のコンマ演算子と同じです。
リストコンテキストでは、これは単にリスト引数の区切り文字で、 双方の引数をそのリストに挿入する働きがあります。 これらの引数も左から右に評価されます。
=>
演算子(時々「ファットコンマ」と発音されます)はコンマ演算子の 同義語ですが、もし左側の単語が文字か下線で始まっていて、かつ文字、数字、 下線でのみ構成されている場合、これを文字列として扱うという効果もあります。 これには他の場所では演算子、定数、v-文字列、関数呼び出しとして扱われる オペランドを含みます。 この振る舞いについて迷うことがあるなら、左オペランドを明示的に クォートすることも出来ます。
さもなければ、=>
演算子はコンテキストによって、 カンマ演算子かリスト引数の区切り文字と全く同様に振る舞います。
例えば:
use constant FOO => "something";
my %h = ( FOO => 23 );
は、以下と等価です:
my %h = ("FOO", 23);
これは 違います:
my %h = ("something", 23);
=>
演算子は、ハッシュのキーと値や、その他のリスト中の組となる 要素の関係を表現するのに便利です。
%hash = ( $key => $value );
login( $username => $password );
特殊なクォートの振る舞いは優先順位を無視し、従って左オペランドの 一部 に 適用されることがあります:
print time.shift => "bbb";
この例は "1314363215shiftbbb"
のようなものを表示します; なぜなら =>
は暗黙にすぐ左にある shift
をクォートし、 time.shift
全体が 左オペランドであるという事実を無視するからです。
リスト演算子の右側のものにとって、カンマはとても低い優先順位になります; これによってコンマで区切った式をリスト演算子の引数として 置くことができます。 これよりも優先順位が低いものは、論理演算子の "and"
, "or"
, "not"
のみで、括弧を付けないリスト演算子の呼び出しを評価するために使えます:
open HANDLE, "< :encoding(UTF-8)", "filename"
or die "Can't open: $!\n";
しかし、かっこ付きで書くよりもコードが読みにくいという人もいます:
open(HANDLE, "< :encoding(UTF-8)", "filename")
or die "Can't open: $!\n";
この場合、より慣習的な "||"
演算子も使えます:
open(HANDLE, "< :encoding(UTF-8)", "filename")
|| die "Can't open: $!\n";
"Terms and List Operators (Leftward)" のリスト演算子の議論も参照して下さい。
単項演算子の "not"
は右側に来る式の否定を返します。 これは、優先順位がずっと低いことを除いては "!"
と等価です。
二項演算子の "and"
は両側の式の論理積を返します。 これは、優先順位がずっと低いことを除けば &&
と等価です。 つまり、これも短絡演算を行ない、右側の式は左側の式が 「真」であった場合にのみ評価されます。
二項演算子の "or"
は両側の式の論理和を返します。 これは、優先順位がずっと低いことを除いて ||
と等価です。 これはフローを制御するのに有用です:
print FH $data or die "Can't write to FH: $!";
つまり、これも短絡演算を行ない、右側の式は左側の式が 「偽」であった場合にのみ評価されます。 優先度の関係で、これを ||
演算子の置き換えに使うのは慎重に 避けなければなりません。 これは普通代入よりも、フローの制御でうまく動作します:
$x = $y or $z; # バグ: これは間違い
($x = $y) or $z; # 本当にしたいこと
$x = $y || $z; # こう書いた方がいい
しかし、代入がリストコンテキストの時に ||
をフロー制御に使おうとする場合、 代入により大きな優先順位を持たせるために "or"
が必要かもしれません。
@info = stat($file) || die; # うわ、stat がスカラの意味だ!
@info = stat($file) or die; # よりよい; @info はその目的を果たす
もちろん、常に括弧をつけてもよいです。
二項演算子の "xor"
は両側の式の排他論理和を返します。 これは (もちろん) 短絡できません。
定義性論理和の低優先順位版はありません。
C にあって Perl に無いものは以下の通りです:
アドレス演算子。 (しかし "\"
演算子がリファレンスのために用いられます。)
被アドレス参照演算子。 (Perl の被参照プリフィクス演算子が型づけを行ないます: $
, @
, %
, &
。)
型のキャスト演算子。
クォートはリテラル値であると考えるのが普通ですが、Perl において、 クォートは演算子として働き、さまざまな展開やパターンマッチの機能を 持っています。 そのような動作をさせるのに、Perl は慣習的にクォート文字を使っていますが、 どの種類のクォートも、自分でクォート文字を選べるようになっています。 以下の表では、{} がその選んだ区切文字のペアを示しています。
通常記法 汎用記法 意味 展開
=================================================
'' q{} リテラル 不可
"" qq{} リテラル 可
`` qx{} コマンド 可 *
qw{} 単語リスト 不可
// m{} パターンマッチ 可 *
qr{} パターン 可 *
s{}{} 置換 可 *
tr{}{} 変換 不可 (但し以下を参照のこと)
y{}{} 変換 不可 (但し以下を参照のこと)
<<EOF ヒアドキュメント 可 *
* '' がデリミタでない場合のみ
選んだ区切文字が括弧の類でない場合には、前後の文字として同一のものを 使いますが、4 つの ASCII のかっこ ((), <>, [], {}) の場合にはネストできます; つまり、以下のものは、
q{foo{bar}baz}
以下と同じです。
'foo{bar}baz'
しかし、以下のコードはクォートされた Perl コードでは いつも正しく動くわけではないことに注意してください:
$s = q{ if($x eq "}") ... }; # WRONG
これは文法エラーとなります。 Text::Balanced
モジュール(Perl 5.8 からは標準配布、それ以前は CPAN に あります)はこれを適切に行います。
演算子とクォート文字の間に空白を置くことも出来ます (そして場合によっては 必須です); ただし、#
をクォート文字として使う場合は例外です。 q#foo#
は文字列 foo
としてパースされますが、 q #foo#
は q
演算子の後にコメントがあるとみなされます。 この引数は次の行から取られます。つまり、以下のように書けます:
s {foo} # foo を
{bar} # bar で置き換える
空白が使われなければならないのは、クォート文字が単語文字 (つまり /\w/
にマッチングする)の場合です:
q XfooX # Works: means the string 'foo'
qXfooX # WRONG!
以下のエスケープシーケンスが、 区切り文字がシングルクォート ("'"
) でない展開と文字変換の構文で 利用可能です。 中かっこつきのもの全ては、中かっこの中で隣接している任意の数の空白や タブが許されます(そして無視されます)。
シーケンス 注意 説明
\t タブ (HT, TAB)
\n 改行 (NL)
\r 復帰 (CR)
\f 改ページ (FF)
\b バックスペース (BS)
\a アラーム (BEL)
\e エスケープ (ESC)
\x{263a} [1,8] 16 進文字 (例: SMILEY)
\x{ 263A } 同様、しかし中かっこの内側に隣接している
オプションの空白を示している
\x1b [2,8] 範囲制限された 16 進数で表した文字 (例: ESC)
\N{name} [3] 名前つき Unicode 文字または文字シーケンス
\N{U+263D} [4,8] Unicode 文字 (例: FIRST QUARTER MOON)
\c[ [5] 制御文字 (例: chr(27))
\o{23072} [6,8] 8 進文字 (例: SMILEY)
\033 [7,8] 範囲制限された 8 進文字 (例: ESC)
変数置換構文の中の中かっこを使ったエスケープシーケンスは、 前述の 2 番目の \x{ }
の例で図示したように、中かっこの内側隣接の 位置にオプションの空白(タブまたはスペース文字)を置くことができます。
結果は中かっこで囲まれた 16 進数で指定された文字です。 その文字に関する詳細については以下の "[8]" を参照してください。
空白 (タブまたはスペース文字) は、片方または両方の中かっこから数字を 分離します。
さもなければ、中かっこの中には 16 進数字のみが妥当です。 不正な文字に遭遇すると、警告が発生し、中かっこの内側の不正な文字と それ以降の文字(妥当でも不正でも)は捨てられます。
中かっこの中に妥当な文字がなければ、生成される文字は NULL 文字 (\x{00}
) です。 しかし、明示的な空の中かっこ (\x{}
) は(今のところ)警告を出しません。
結果は 0x00 から 0xFF の範囲の 16 進数で指定された文字です。 その文字に関する詳細については以下の "[8]" を参照してください。
\x
に引き続くのは 16 進数字のみが妥当です。 \x
に引き続く妥当な数字が 2 桁ない場合、妥当な数字はゼロで パッディングされます。 これは、\x7
は \x07
と解釈され、単独の "\x"
は \x00
と 解釈されるということです。 文字列の末尾を例外として、妥当な数字が 2 桁ない場合は警告が発生します。 警告は不正な文字が無視されると言うにも関わらず、エスケープの一部のみが 無視され、文字列中の引き続く文字は使われるままであることに注意してください。 例えば:
Original Result Warns?
"\x7" "\x07" no
"\x" "\x00" no
"\x7q" "\x07q" yes
"\xq" "\x00q" yes
結果は name で指定される Unicode 文字または文字の並びです。 charnames を参照してください。
\N{U+hexadecimal number}
は、Unicode 符号位置が hexadecimal number の Unicode 文字を意味します。
\c
に引き続く文字は以下の表に示すように他の文字にマッピングされます:
Sequence Value
\c@ chr(0)
\cA chr(1)
\ca chr(1)
\cB chr(2)
\cb chr(2)
...
\cZ chr(26)
\cz chr(26)
\c[ chr(27)
# See below for chr(28)
\c] chr(29)
\c^ chr(30)
\c_ chr(31)
\c? chr(127) # (on ASCII platforms; see below for link to
# EBCDIC discussion)
言い換えると、符号位置を 64 で xor して大文字にした文字です。 ord("?") ^ 64
は 127 なので \c?
は ASCII プラットフォームでは DELETE で、"@"
は 64 のために 64 で xor すると 0 になるので \c@
は NUL です。
また、\c\X
は任意の X について chr(28) . "X"
となりますが、 文字列の末尾には来ません; 逆スラッシュは末尾のクォートをエスケープするように パースされるからです。
ASCII プラットフォームでは、上述の一覧からの結果の文字は ASCII 制御文字の 完全な集合です。 これは EBCDIC プラットフォームには当てはまりません; これに関する ASCII プラットフォームと EBCDIC プラットフォームとの違いの完全な議論については "OPERATOR DIFFERENCES" in perlebcdic を参照してください。
"c"
に引き続いて上述した以外の文字を使うことは非推奨であり、 as of Perl v5.20, the only characters actually allowed are the printable ASCII ones, minus the left brace "{"
. 許されている他の文字を置いたときに起こることは、値が第 7 ビット; つまり 64 で xor を取ったものになり、 有効の場合は警告が発生します。 許されていない文字を使うと致命的エラーが発生します。
プラットフォーム非依存の制御文字を得るには、\N{...}
を使ってください。
結果は中かっこで囲まれた 8 進数で指定された文字です。 その文字に関する詳細については以下の "[8]" を参照してください。
空白 (タブまたはスペース文字) は、片方または両方の中かっこから数字を 分離します。
さもなければ、8 進数でない文字に遭遇すると、警告が発生し、値はそこまでの 8 進数字を基として、それ以降閉じ中かっこまでの全ての文字を捨てます。 8 進数字がまったくないと致命的エラーになります。
結果は範囲 000 から 777 までの 3 桁の 8 進数で指定される文字です (しかし 077 より上は使わないのが最良です; 次の段落を参照してください)。 その文字に関する詳細については以下の "[8]" を参照してください。
一部のコンテキストでは 2 桁や、1 桁ですら許されますが、正確に 3 桁かつ 先頭が 0、以外の使い方は意図していない結果をもたらすかもしれません。 (例えば、正規表現中では後方参照で混乱するかもしれません; "Octal escapes" in perlrebackslash を参照してください。) Perl 5.14 から、代わりに \o{}
を使えます; これはこれらすべての問題を 避けられます。 さもなければ、この構文を値 \077
以下でのみ使用するのが最良です; 3 桁にするために左側にゼロをパッディングするのを忘れないでください。 より大きな値では、\o{}
を使うか、代わりに 16 進数にして \N{U+}
(これは異なった文字集合のプラットフォーム間で移植性があります) を使うか、 または \x{}
を 使うような、他のものに変換してください。
上述のいくつかの構造は文字を数値で指定しています。 この値は文字集合エンコーディングで (0 から始めた) 文字の位置を指定します。 これは同意語として序数(ordinal)、コード位置(code position)、 符号位置(code point)と呼ばれます。 Perl は現在のところ、それぞれ 256 文字を定義している ASCII/Latin1 または EBCDIC のどちらかのネイティブエンコーディングを持つプラットフォームで 動作します。 一般的に、数値が 255 (0xFF, 0377) 以下なら、Perl はこれをプラットフォームの ネイティブエンコーディングと解釈します。 数値が 256 (0x100, 0400) 以上なら、Perl はこれを Unicode 符号位置と解釈し、 結果は対応する Unicode 文字となります。 例えば \x{50}
と \o{120}
はどちらも 10 進数では 80 で、これは 256 より 小さいので、数値はネイティブ文字集合エンコーディングとして解釈されます。 ASCII では (0 から始めて) 80 番目の位置の文字は "P"
で、EBCDIC では アンパサンド記号 "&"
です。 \x{100}
と \o{400}
はどちらも 10 進数では 256 なので、数値は ネイティブエンコーディングが何かに関わらず Unicode 符号位置として 解釈されます。 Unicode での (0 から始めて) 256 番目の位置の文字の名前は LATIN CAPITAL LETTER A WITH MACRON
です。
上述の規則の例外として、\N{U+16 進数}
は常に Unicode 符号位置として 解釈されるので、\N{U+0050}
は EBCDIC プラットフォームでも "P"
です。
注意: C やその他の言語と違って、Perl は垂直タブ (VT - ASCII と EBCDIC の 両方で 11) のための \v エスケープシーケンスはありませんが、\N{VT}
, \ck
, \N{U+0b}
, \x0b
が使えます。 (\v
は Perl の正規表現パターンでは意味があります; perlre を 参照してください。)
以下のエスケープシーケンスが展開と文字変換の構文で利用可能です。
\l 次の文字だけを小文字にする
\u 次の文字だけをタイトル文字(大文字ではありません!)にする
\L \E か文字列の末尾まで小文字にする
\U \E か文字列の末尾まで大文字にする
\F \E か文字列の末尾まで畳み込み文字にする
\Q \E か文字列の末尾までパターンメタ文字をクォート(無効化)する
\E 大文字小文字変換かクォート部分(どちらか最後に現れたもの)を
終了させる
\Q
でクォートされる文字の正確な定義については "quotemeta" in perlfunc を 参照してください。
\L
, \U
, \F
, \Q
はスタックできます; この場合それぞれに対して \E
が必要です。 例えば:
say"This \Qquoting \ubusiness \Uhere isn't quite\E done yet,\E is it?";
This quoting\ Business\ HERE\ ISN\'T\ QUITE\ done\ yet\, is it?
LC_CTYPE
を含む use locale
型式が有効の場合(perllocale を 参照して下さい)、\l
, \L
, \u
, \U
で使われる 大文字小文字テーブルは現在のロケールのものが使われます。 (例えば、\N{}
や、0x100 以上の符号位置の) Unicode が 使われている場合、\l
, \L
, \u
, \U
で使われる大文字小文字 テーブルは Unicode で定義されているものになります。 これは、単一の文字の大文字小文字マッピングは複数の文字の並びを生成することが あるということです。 use locale
の基では、\F
は、Unicode の定義が使われる UTF-8 以外の 全てのロケールにおいて、\L
と同じ結果を生成します。
全てのシステムでは "newline" と呼ばれる行端末子を表現するために 仮想的な "\n"
が用いられます。 普遍の、物理的な "newline" 文字と言うものはありません。 オペレーティングシステム、デバイスドライバ、C ライブラリ、Perl が全て 協力して保存しようとすると言うのは単なる幻想です。 全てのシステムで "\r"
を ASCII CR として、また "\n"
を ASCII LF として読み込むわけではありません。 例えば昔の Mac (MacOS X 以前)ではこれらは保存され、行端末子のない システムでは、"\n"
を print しても実際のデータは何も出力しません。 一般に、システムで "newline" を意味したいときには "\n"
を使いますが、 正確な文字が必要な場合はリテラルな ASCII を使います。 例えば、ほとんどのネットワークプロトコルでは行端末子として CR+LF ("\015\012"
または "\cM\cJ"
) を予想し、また好みますが、 しばしば "\012"
だけでも許容し、さらに時々は "\015"
だけでも認めます。 もしネットワーク関係で "\n"
を使う習慣がついていると、 いつか痛い目を見ることになるでしょう。
展開が行なわれる構文では、"$
" や "@
" で始まる変数が展開されます。 $a[3]
や $href->{key}[0]
のような添え字付き変数もまた 配列やハッシュのスライスのように展開されます。 しかし、$obj->meth
のようなメソッド呼び出しは展開されません。
配列やスライスの展開は、要素を順番に、$"
の値で分割して展開されるので、 join $", @array
の展開と等価です。 @*
のような「句読点」配列は普通は名前が @{*}
のように中かっこで 囲われている場合にのみ展開されますが、配列 @_
, @+
, @-
は 中かっこなしでも展開されます。
ダブルクォートされた文字列では、\Q
からのクォートは文字変換と エスケープが処理された後に適用されます。
"abc\Qfoo\tbar$s\Exyz"
は以下と等価です:
"abc" . quotemeta("foo\tbar$s") . "xyz"
正規表現演算子 (qr//
, m//
, s///
) のパターンでは、\Q
による クォートは変数展開が行われた後、エスケープが処理される前に適用されます。 これによりパターンを ($
と @
以外は) リテラルにマッチングできます。 例えば、以下はマッチングします:
'\s\t' =~ /\Q\s\t/
$
や @
は変換を引き起こすので、リテラルにマッチングさせるためには m/\Quser\E\@\Qhost/
などという風に書く必要があります。
パターンはさらに、正規表現として展開が行なわれます。 これは、変数が展開された後の 2 回目のパスで行なわれるので、変数に正規表現を 含めておき、パターンの中へ展開することができます。 もし、そうしたくないのであれば、\Q
を使うと変数の内容を文字通りに 展開することができます。
上記の振る舞いを除けば、Perl は 複数の段階を踏んで展開を行ないません。 特に、シェルのプログラマの期待とは裏腹に、バッククォートはダブルクォートの 中では展開されませんし、シングルクォートがダブルクォートの中で使われても、 変数の展開を妨げることは ありません。
以下はパターンマッチングと関連する行動に関するクォート風の演算子です。
qr/STRING/msixpodualn
この演算子は STRING を正規表現としてクォートします (そして可能ならコンパイルします)。 STRING は m/PATTERN/
内の PATTERN と同様に文字変換されます。 "'"
がデリミタとして使用された場合、変数展開は行われません。 対応する /STRING/msixpodualn
表現の代わりに使われた Perl の値を返します。 返り値は元のパターンを正規化したものです。 これは不思議なことに、同じ文字を含む文字列とは異なります: ref(qr/x/)
は "Regexp" を返します; しかし、これのデリファレンスは 定義されていません (現在の所元のパターンの正規化版を返しますが、これは 変更されるかもしれません)。
例えば:
$rex = qr/my.STRING/is;
print $rex; # prints (?si-xm:my.STRING)
s/$rex/foo/;
は以下と等価です:
s/my.STRING/foo/is;
結果はマッチのサブパターンとして使えます:
$re = qr/$pattern/;
$string =~ /foo${re}bar/; # 他のパターンに展開できる
$string =~ $re; # または単独で使う
$string =~ /$re/; # またはこのようにする
Perl は qr()
演算子を実行する瞬間にパターンをコンパイルするので、 qr()
を使うことでいくつかの場面で速度的に有利になります; 特に qr()
の結果が独立して使われる場合に有利になります。
sub match {
my $patterns = shift;
my @compiled = map qr/$_/i, @$patterns;
grep {
my $success = 0;
foreach my $pat (@compiled) {
$success = 1, last if /$pat/;
}
$success;
} @_;
}
qr()
の時点でパターンを内部表現にプリコンパイルすることにより、 /$pat/
を試みる毎に毎回パターンを再コンパイルするのを 避けることができます。 (Perl はその他にも多くの内部最適化を行いますが、上の例で qr()
演算子を 使わなかった場合はどの最適化も行われません。)
(以下の修飾子で指定される)オプションは以下の通りです:
m 文字列を複数行として扱う。
s 文字列を一行として扱う。 (. が 改行にマッチングするようにする)
i パターンマッチにおいて大文字小文字を区別しない。
x 拡張正規表現を使う; x を二つ指定すると、
\t と SPACE 文字は大かっこ文字クラスの中では無視されます。
p マッチング時にマッチングした文字列を保存するので、
${^PREMATCH}, ${^MATCH}, ${^POSTMATCH} が定義される。
(v5.20 から無視される) このリリースから常に定義される
o 一度だけコンパイルする。
a ASCII 制限: \d, \s, \w, [[:posix:]] 文字クラスに ASCII を使う;
a を二つ指定すると、/i で ASCII 文字が非 ASCII 文字に
マッチングしないようなさらなる制限を追加する
l 現在の実行時ロケールの規則を使う。
u Unicode の規則を使う
d 5.12 以降かどうかで、Unicode かネイティブな文字集合を使う
n 非捕捉モード。() で $1, $2 などを埋めない
プリコンパイルされたパターンがより大きいパターンに組み込まれている場合、 "msixpluadn"
の効果は適切に伝播します。 /o
修飾子の効果は伝播せず、明示的に使われたパターンに制限されます。
(Perl 5.14 で追加された) /a
, /d
, /l
, /u
修飾子は 、 文字集合の規則を制御しますが、明示的に指定したいと思いそうなものは /a
だけでしょう; その他の三つはさまざまなプラグマによって自動的に選択されます。
STRING として有効な文法に関する追加の情報と、正規表現の意味論に関する 詳細については、perlre を参照してください。 特に、かなり古いものである /o
以外の全ての修飾子については "Modifiers" in perlre でさらに説明されています。 /o
は次の節に記述されています。
m/PATTERN/msixpodualngc
/PATTERN/msixpodualngc
パターンマッチで文字列検索を行ない、スカラコンテキストでは成功したときは真、 失敗したときは偽を返します。 =~
演算子か !~
演算子で検索対象の文字列を示さなかったときには、 $_
の文字列が検索対象となります。 (=~
で指定される文字列は、左辺値である必要はありません-- 式を評価した結果でもかまいませんが、=~
の優先順位がいくぶん高いことに 注意してください。) perlre も参照してください。
オプションは上述した qr//
に記述されています; さらに、以下の マッチング処理修飾子が利用可能です:
g グローバルにマッチング、つまり、すべてを探し出す。
c /g が有効なとき、マッチングに失敗しても検索位置をリセットしない。
区切文字が "/"
のときには、最初の m
は付けても付けなくてもかまいません。 m
を付けるときには、(ASCII の)空白でもない、任意の文字のペアを 区切文字として使うことができます。 これは特に、"/"
を含むパス名にパターンマッチングを行なうときに、 LTS (傾斜楊枝症候群) を避けるために便利でしょう。 "?" がデリミタなら、後述する m?PATTERN?
にある「一度だけマッチング」 ルールが適用されます。 "'"
(シングルクォート) がデリミタの場合、PATTERN に対する変数展開は 行われません。 識別子として有効な区切り文字を使う場合、m
の後に空白が必要です。
PATTERN には、変数が含まれていてもよく、パターンが評価されるごとに、 (デリミタがシングルクォートでない限り)変数は展開され (パターンが再コンパイルされ) ます。 (変数 $(
, $)
, $|
は文字列の終わりを調べるパターンであると 解釈されるので、展開されません。) Perl は展開された変数の値が変更されない限りパターンを再コンパイルしません。 デリミタに引き続いて /o
("once" を意味します) を追加することで、 テストを飛ばして再コンパイルしないようにすることができます。 昔々、Perl は不必要に正規表現を再コンパイルしていたので、速度に関心が ある場合は再コンパイルしないようにするためにこの修飾子は有用でした。 しかし今では、/o
を使う理由は以下のいずれかだけです:
変数が数千文字の長さで、これが変更されないことが分かっており、これに対する テストを飛ばすことであともう少しだけ速度を稼ぐ必要がある。 (こうすることには保守上のペナルティがあります; なぜなら /o
と 言及することでパターン内の変数を変更しないことを約束したことになるからです。 変更しても、Perl は気づきもしません。)
変数が変更されようが変更されまいが、変数の初期値を使ったパターンがほしい。 (しかしこれを達成するための、/o
を使うよりもまともな方法があります。)
以下のようにパターンに組み込みコードが含まれている場合
use re 'eval';
$code = 'foo(?{ $x })';
/$code/
$x
の現在の値を毎回確認するために、例えパターン文字列が 変更されていなくても、毎回再コンパイルされます。 これを避けたい場合は /o
を使ってください。
結論としては、/o
を使うことがいい考えであることはほとんどありません。
//
PATTERN を評価した結果が空文字列となった場合には、最後にマッチに 成功した 正規表現が、代わりに使われます。 この場合、空パターンに対して g
の c
フラグだけが有効です; その他のフラグは元のパターンから取られます。 以前に成功したマッチングがない場合、これは(暗黙に)真の空パターンとして 動作します(つまり常にマッチングします)。
Perl が //
(空正規表現) と //
(定義性和演算子) を混同する 可能性があることに注意してください。 Perl は普通これをかなりうまく処理しますが、$x///
(($x) / (//)
それとも $x // /
?) や print $fh //
(print $fh(//
それとも print($fh //
?) のような病的な状況ではこれが起こりえます。 これらの例の全てでは、Perl は定義性和を意味していると仮定します。 もし空正規表現を意味したいなら、あいまいさをなくすために単に かっこや空白を使うか、空正規表現に接頭辞 m
を付けてください (つまり //
を m//
にします)。
/g
オプションが使われなかった場合、リストコンテキストでのm//
は パターンの中の括弧で括られた部分列にマッチしたもので構成されるリストを 返します; これは、($1
, $2
, $3
, ...) ということです (この場合、$1
なども設定されます)。 パターンに括弧がない場合は、返り値は成功時はリスト (1)
です。 括弧のあるなしに関わらず、失敗時は空リストを返します。
例:
open(TTY, "+</dev/tty")
|| die "can't access /dev/tty: $!";
<TTY> =~ /^y/i && foo(); # do foo if desired
if (/Version: *([0-9.]*)/) { $version = $1; }
next if m#^/usr/spool/uucp#;
# poor man's grep
$arg = shift;
while (<>) {
print if /$arg/o; # compile only once (no longer needed!)
}
if (($F1, $F2, $Etc) = ($foo =~ /^(\S+)\s+(\S+)\s*(.*)/))
最後の例は、$foo
を最初の 2 つの単語と行の残りに分解し、 $F1
と $F2
と $Etc
に代入しています。 変数に代入されれば、すなわちパターンがマッチすれば、 if の条件が真となります。
/g
修飾子は、グローバルなパターンマッチを指定するもので、 文字列の中で可能な限りたくさんマッチを行ないます。 この動作は、コンテキストに依存します。 リストコンテキストでは、正規表現内の括弧付けされたものにマッチした 部分文字列のリストが返されます。 括弧がなければ、パターン全体を括弧で括っていたかのように、 すべてのマッチした文字列のリストが返されます。
スカラコンテキストでは、m//g
を実行する毎に次のマッチを探します; マッチした場合は真を返し、もうマッチしなくなったら偽を返します。 最後のマッチの位置は pos()
関数で読み出しや設定ができます; "pos" in perlfunc を参照して下さい。 マッチに失敗すると通常は検索位置を文字列の先頭にリセットしますが、 /c
修飾子をつける(例えば m//gc
)ことでこれを防ぐことができます。 ターゲットとなる文字列が変更された場合も検索位置はリセットされます。
\G アサート
m//g
マッチを m/\G.../g
と混ぜることもできます; \G
は前回の m//g
があればその同じ位置でマッチするゼロ文字幅のアサートです。 /g
修飾子なしの場合、\G
アサートは操作の最初としてpos()
に 固定しますが、("pos" in perlfunc 参照) マッチはもちろん一度だけ試されます。 以前に /g
マッチを適用していないターゲット文字列に対して /g
なしで \G
を使うと、文字列の先頭にマッチする \A
アサートを使うのと 同じことになります。 \G
は現在のところ、パターンのまさに先頭を示す場合にのみ正しく 対応することにも注意してください。
例:
# list context
($one,$five,$fifteen) = (`uptime` =~ /(\d+\.\d+)/g);
# scalar context
local $/ = "";
while ($paragraph = <>) {
while ($paragraph =~ /\p{Ll}['")]*[.!?]+['")]*\s/g) {
$sentences++;
}
}
say $sentences;
以下は段落内の文をチェックするためのもう一つの方法です:
my $sentence_rx = qr{
(?: (?<= ^ ) | (?<= \s ) ) # 文字列の先頭か空白の後
\p{Lu} # 大文字
.*? # なんでも
(?<= \S ) # 空白以外で終わる
(?<! \b [DMS]r ) # しかし一般的な省略形ではない
(?<! \b Mrs )
(?<! \b Sra )
(?<! \b St )
[.?!] # 引き続いて文を終わらせるものが
(?= $ | \s ) # 文字列の末尾か空白の前に
}sx;
local $/ = "";
while (my $paragraph = <>) {
say "NEW PARAGRAPH";
my $count = 0;
while ($paragraph =~ /($sentence_rx)/g) {
printf "\tgot sentence %d: <%s>\n", ++$count, $1;
}
}
以下は m//gc
を \G
で使う方法です:
$_ = "ppooqppqq";
while ($i++ < 2) {
print "1: '";
print $1 while /(o)/gc; print "', pos=", pos, "\n";
print "2: '";
print $1 if /\G(q)/gc; print "', pos=", pos, "\n";
print "3: '";
print $1 while /(p)/gc; print "', pos=", pos, "\n";
}
print "Final: '$1', pos=",pos,"\n" if /\G(.)/;
最後のものは以下のものを表示するはずです:
1: 'oo', pos=4
2: 'q', pos=5
3: 'pp', pos=7
1: '', pos=7
2: 'q', pos=8
3: '', pos=8
Final: 'q', pos=8
\G
なしでのマッチが行われたため、最後のマッチでは p
ではなく q
がマッチすることに注意してください。 また、最後のマッチは pos
を更新しないことに注意してください。 pos
は /g
マッチでのみ更新されます。 もし最後のマッチで p
にマッチした場合、かなりの確率で とても古い (5.6.0 以前の) Perl で実行しているはずです。
lex
風にスキャンするために便利な指定は /\G.../gc
です。 文字列を部分ごとに処理するためにいくつかの正規表現をつなげて、どの正規表現に マッチングしたかによって異なる処理をすることができます。 それぞれの正規表現は前の正規表現が飛ばした部分に対してマッチングを試みます。
$_ = <<'EOL';
$url = URI::URL->new( "http://example.com/" );
die if $url eq "xXx";
EOL
LOOP: {
print(" digits"), redo LOOP if /\G\d+\b[,.;]?\s*/gc;
print(" lowercase"), redo LOOP
if /\G\p{Ll}+\b[,.;]?\s*/gc;
print(" UPPERCASE"), redo LOOP
if /\G\p{Lu}+\b[,.;]?\s*/gc;
print(" Capitalized"), redo LOOP
if /\G\p{Lu}\p{Ll}+\b[,.;]?\s*/gc;
print(" MiXeD"), redo LOOP if /\G\pL+\b[,.;]?\s*/gc;
print(" alphanumeric"), redo LOOP
if /\G[\p{Alpha}\pN]+\b[,.;]?\s*/gc;
print(" line-noise"), redo LOOP if /\G\W+/gc;
print ". That's all!\n";
}
出力は以下のようになります(何行かに分割しています):
line-noise lowercase line-noise UPPERCASE line-noise UPPERCASE
line-noise lowercase line-noise lowercase line-noise lowercase
lowercase line-noise lowercase lowercase line-noise lowercase
lowercase line-noise MiXeD line-noise. That's all!
m?PATTERN?msixpodualngc
これは、reset()
演算子を呼び出すごとに 1 度だけしかマッチングしないことを 除いては m/PATTERN/
による検索と全く同じです。 たとえば、ファイルの集まりの中で個々のファイルについて、あるものを 探すとき、最初の 1 つだけの存在がわかれば良いのであれば、この機能を 使って最適化をはかることができます。 現在のパッケージにローカルとなっている m??
のパターンだけが リセットされます。
while (<>) {
if (m?^$?) {
# blank line between header and body
}
} continue {
reset if eof; # clear m?? status for next file
}
次の例は、pod ファイル中の最初の "latin1" エンコーディングを "utf8" に 切り替えます:
s//utf8/ if m? ^ =encoding \h+ \K latin1 ?x;
一度だけマッチングという振る舞いはマッチングデリミタが ?
かどうかで 制御されます: その他のデリミタの場合はこれは通常の m//
演算子です。
過去には、m?PATTERN?
の先頭の m
は省略可能でしたが、これを省略すると 廃止予定警告が出ていました。 v5.22.0 から、これを省略すると文法エラーが発生します。 もし古いコードでこの構文に遭遇した場合は、単に m
を追加してください。
s/PATTERN/REPLACEMENT/msixpodualngcer
文字列中でパターンを検索し、もし見つかれば、置換テキストで置き換え、 置換した数を返します。 見つからなければ、偽 (空文字列 (""
) と数値のゼロ (0
の両方) を 返します。
/r
(非破壊) オプションが使われると、文字列のコピーに対して置換が行われ、 置換された数ではなく、置換が行われたかどうかにかかわらずこのコピーが 返されます。 /r
が使われた場合、元の文字列は決して変更されません。 コピーは、たとえ入力がオブジェクトや tie された変数でも、常に プレーンな文字列です。
=~
演算子や !~
演算子によって文字列が指定されていなければ、 変数 $_
が検索され、修正されます。 /r
が指定されていない限り、 =~
で指定される文字列は、スカラ変数、配列要素、ハッシュ要素、 あるいは、これらへの代入式といったある種の スカラ左辺値でなければなりません。
シングルクォートを区切り文字として使った場合には、 PATTERN にも REPLACEMENT にも変数展開を行ないません。 それ以外の場合、文字列の最後を表わすものには見えない $
が PATTERN に含まれると、実行時に変数がパターン内に展開されます。 最初に変数が展開されるときにだけパターンのコンパイルを行ないたいときには、 /o
オプションを使ってください。 パターンの評価結果が空文字列になった場合には、最後に成功した正規表現が 代わりに使われます。 これについてさらに詳しくは、perlre を参照してください。
オプションは、m//
のものに加えて、以下の置換固有のものがあります:
e 式の右側の評価を行なう。
ee 右側を文字列として評価して、その結果を評価する。
r 置換した結果を返し、もとの文字列はそのままにする。
空白ではない任意の区切り文字で、スラッシュを置き換えられます。 識別子として許されている文字を使うときには s
の後に空白を 追加してください。 先に述べたように、シングルクォートを使うと置換文字列での展開は されません (/e
修飾子を使えば可能です)。 バッククォートを通常のデリミタとして扱うことに注意してください; 置換テキストはコマンドとして評価されません。 PATTERN を括弧類で括った場合には、REPLACEMENT 用にもう一組の区切り文字を 用意します; これは、括弧類であっても、なくてもかまいません; s(foo)(bar)
や s<foo>/bar/
。 /e
は置換文字列を完全な Perl の式として扱い、その場所で直ちに解釈します。 しかし、これはコンパイル時に構文チェックされます。 二番目の e
修飾子を指定すると、置換部分がまず Perl の式として eval
されます。
例:
s/\bgreen\b/mauve/g; # don't change wintergreen
$path =~ s|/usr/bin|/usr/local/bin|;
s/Login: $foo/Login: $bar/; # run-time pattern
($foo = $bar) =~ s/this/that/; # copy first, then
# change
($foo = "$bar") =~ s/this/that/; # convert to string,
# copy, then change
$foo = $bar =~ s/this/that/r; # Same as above using /r
$foo = $bar =~ s/this/that/r
=~ s/that/the other/r; # Chained substitutes
# using /r
@foo = map { s/this/that/r } @bar # /r is very useful in
# maps
$count = ($paragraph =~ s/Mister\b/Mr./g); # get change-cnt
$_ = 'abc123xyz';
s/\d+/$&*2/e; # yields 'abc246xyz'
s/\d+/sprintf("%5d",$&)/e; # yields 'abc 246xyz'
s/\w/$& x 2/eg; # yields 'aabbcc 224466xxyyzz'
s/%(.)/$percent{$1}/g; # change percent escapes; no /e
s/%(.)/$percent{$1} || $&/ge; # expr now, so /e
s/^=(\w+)/pod($1)/ge; # use function call
$_ = 'abc123xyz';
$x = s/abc/def/r; # $x is 'def123xyz' and
# $_ remains 'abc123xyz'.
# expand variables in $_, but dynamics only, using
# symbolic dereferencing
s/\$(\w+)/${$1}/g;
# Add one to the value of any numbers in the string
s/(\d+)/1 + $1/eg;
# Titlecase words in the last 30 characters only
substr($str, -30) =~ s/\b(\p{Alpha}+)\b/\u\L$1/g;
# This will expand any embedded scalar variable
# (including lexicals) in $_ : First $1 is interpolated
# to the variable name, and then evaluated
s/(\$\w+)/$1/eeg;
# Delete (most) C comments.
$program =~ s {
/\* # Match the opening delimiter.
.*? # Match a minimal number of characters.
\*/ # Match the closing delimiter.
} []gsx;
s/^\s*(.*?)\s*$/$1/; # trim whitespace in $_,
# expensively
for ($variable) { # trim whitespace in $variable,
# cheap
s/^\s+//;
s/\s+$//;
}
s/([^ ]*) *([^ ]*)/$2 $1/; # reverse 1st two fields
$foo !~ s/A/a/g; # Lowercase all A's in $foo; return
# 0 if any were found and changed;
# otherwise return 1
最後の例で \
の代わりに $
を使っているのに注意してください。 sed と違って、\<数字> の形式はパターンの方でのみ使用できます。 その他の場所では、$<数字> を使います。
ときには、/g
を付けるだけでは、あなたが望んでいるような形で すべてを変更することができないことがあります。 良くある例を 2 つ示します:
# put commas in the right places in an integer
1 while s/(\d)(\d\d\d)(?!\d)/$1,$2/g;
# expand tabs to 8-column spacing
1 while s/\t+/' ' x (length($&)*8 - length($`)%8)/e;
s///
は /c
フラグを受け付けますが、 警告が有効の場合に警告を出す以外の効果はありません。
q/STRING/
'STRING'
シングルクォートされた、リテラル文字列です。 バックスラッシュは、後ろに続くものが区切文字か、別のバックスラッシュで ある場合を除いて単なるバックスラッシュです; 区切文字やバックスラッシュが続く場合には、その区切文字自身もしくは バックスラッシュそのものが展開されます。
$foo = q!I said, "You said, 'She said it.'"!;
$bar = q('This is it.');
$baz = '\n'; # a two-character string
qq/STRING/
"STRING"
ダブルクォートされた、リテラル文字列です。
$_ .= qq
(*** The previous line contains the naughty word "$1".\n)
if /\b(tcl|java|python)\b/i; # :-)
$baz = "\n"; # a one-character string
qx/STRING/
`STRING`
展開され、必要なら /bin/sh またはそれと等価なものでシステムの コマンドとして実行される(であろう)文字列です。 シェルのワイルドカード、パイプ、リダイレクトが有効です。 system
と同様、文字列にシェルメタ文字が含まれていないときは、 直接実行されます。 そのコマンドの、標準出力を集めたものが返されます; 標準エラーは影響を 与えません。 スカラコンテキストでは、(複数行を含むかもしれない) 1 つの文字列が戻ってきます; シェル (またはコマンド) が開始できなかったときは undef
を返します。 リストコンテキストでは、($/
もしくは $INPUT_RECORD_SEPARATOR
を どのように設定していても) 行のリストを返します; シェル (またはコマンド) が開始できなかったときは 空リストを返します。
バッククォートは標準エラーには影響を与えないので、標準エラーを 使いたい場合は(シェルが対応しているものとして)シェルのファイル記述子の 文法を使ってください。 コマンドの STDERR と STDOUT を共に取得したい場合は:
$output = `cmd 2>&1`;
コマンドの STDOUT は取得するが STDERR は捨てる場合は:
$output = `cmd 2>/dev/null`;
コマンドの STDERR は取得するが STDOUT は捨てる場合は (ここでは順序が重要です):
$output = `cmd 2>&1 1>/dev/null`;
STDERR を取得するが、STDOUT は古い STDERR のために残しておくために STDOUT と STDERR を交換するには:
$output = `cmd 3>&1 1>&2 2>&3 3>&-`;
コマンドの STDOUT と STDERR の両方を別々に読み込みたい場合、 一番簡単な方法は別々のファイルにリダイレクトし、 プログラムが終了してからそのファイルを読むことです:
system("program args 1>program.stdout 2>program.stderr");
コマンドによって使われる STDIN ファイルハンドルは Perl の STDIN を 継承します。 例えば:
open(SPLAT, "stuff") || die "can't open stuff: $!";
open(STDIN, "<&SPLAT") || die "can't dupe SPLAT: $!";
print STDOUT `sort`;
は "stuff" という名前のファイルの内容をソートして表示します。
シングルクォートをデリミタとして使うと Perl のダブルクォート展開から 保護され、そのままシェルに渡されます:
$perl_info = qx(ps $$); # that's Perl's $$
$shell_info = qx'ps $$'; # that's the new shell's $$
この文字列がどのように評価されるかは完全にシステムのコマンドインタプリタに 依存します。 ほとんどのプラットフォームでは、シェルのメタ文字をリテラルに 扱ってほしい場合はそれを守る必要があります。 文字をエスケープする方法が明確ではないので、これは理論的には難しいことです。 逆クォートを安全にエミュレートするために手動で fork()
と exec()
を 行うためのきれいで安全な例については perlsec を参照してください。
(特に DOS 風の)プラットフォームには、シェルが複数行のコマンドを扱うことが できないものがあるので、文字列に改行を入れるとあなたの望まない結果に なる場合があります。 シェルが対応していれば、コマンド分割文字で分割することで 1 行に複数のコマンドを入れて解釈させることができます (この文字は、多くの Unix シェルでは ;
、Windows NT cmd
シェルでは &
です)。
Perl は子プロセスの実行前に書き込み用に開いている全ての ファイルをフラッシュしようとしますが、これに対応していない プラットフォームもあります(perlport を参照してください)。 安全のためには、$|
(English
モジュールでは $AUTOFLUSH
)を セットするか、開いている全てのハンドルに対して IO::Handle
の autoflush()
メソッドを呼び出す必要があります。
コマンド行の長さに制限があるコマンドシェルがあることに注意してください。 全ての必要な変換が行われた後、コマンド文字列がこの制限を越えないことを 保障する必要があります。 特定の環境に関するさらなる詳細についてはプラットフォーム固有の リリースノートを参照してください。
この演算子を使うと、プログラムの移殖が困難になります; 呼び出されるシェル コマンドはシステムによって異なり、実際全く存在しないこともあるからです。 一つの例としては、POSIX シェルの type
コマンドは DOS の type
コマンドと 大きく異なっています。 これは、何かを為すために正しい方法として逆クォートを使うことを 避けるべきであることを意味しません。 Perl は接着剤のような言語として作られ、接着されるべきものの一つは コマンドです。 単にあなたが何をしようとしているかを理解しておいてください。
system
シフトと同様、逆クォートは子プロセスの終了コードを $?
に 設定します。 手動で失敗を調査したい場合、次のように $?
を調べることによって 全てのあり得る失敗モードをチェックできます:
if ($? == -1) {
print "failed to execute: $!\n";
}
elsif ($? & 127) {
printf "child died with signal %d, %s coredump\n",
($? & 127), ($? & 128) ? 'with' : 'without';
}
else {
printf "child exited with value %d\n", $? >> 8;
}
コマンドの出力を読み込むのに使われる I/O 層を制御するには open を使います; 例えば:
use open IN => ":encoding(UTF-8)";
my $x = `cmd-producing-utf-8`;
qx//
はまた、"readpipe" in perlfunc のような関数から呼び出されます。
さらなる議論については "I/O Operators" を参照して下さい。
qw/STRING/
埋め込まれた空白を区切文字として、STRING から抜き出した単語のリストを 評価します。 これは、以下の式と大体同じと考えられます:
split(" ", q/STRING/);
違いは、ASCII の空白でのみ分割し、実際のリストをコンパイル時に生成し、 スカラコンテキストではリストの最後の要素を返すことです。 従って、以下の表現は:
qw(foo bar baz)
以下のリストと文法的に等価です。
"foo", "bar", "baz"
よく行なわれる例としては以下のものです:
use POSIX qw( setlocale localeconv )
@EXPORT = qw( foo bar baz );
よくある間違いは、単語をカンマで区切ったり、複数行の qw
文字列の中に コメントを書いたりすることです。 このために、usr warnings
プラグマと -w スイッチ (つまり、$^W
変数) は STRING に ","
や "#"
の文字が入っていると 警告を出します。
tr/SEARCHLIST/REPLACEMENTLIST/cdsr
y/SEARCHLIST/REPLACEMENTLIST/cdsr
検索リスト (SEARCHLIST) に含まれる (あるいは /c
修飾子が指定されている場合は含まれない)文字を、 置換リスト (REPLACEMENTLIST) の位置的に対応する文字に変換します (指定された修飾子によっては一部が削除されることもあります)。 置換または削除が行なわれた、文字数を返します。 =~
演算子や !~
演算子で文字列が指定されていなければ、$_
の文字列が 変換されます。
sed 愛好者のために、y
が tr
の同義語として提供されています。
/r
(非破壊) オプションがあると、文字列の新しいコピーが作られてその 文字が変換され、変更されたかどうかに関わらずこのコピーが返されます: 元の文字列は常に無変更で残されます。 新しいコピーは、たとえ入力がオブジェクトや tie された変数でも、常に プレーンな文字列です。
/r
オプションが使われない限り、=~
で指定される文字列は、スカラ変数、 配列要素、ハッシュ要素、あるいはこれらへの代入式といった左辺値で なければなりません。
SEARCHLIST と REPLACEMENTLIST を区切る文字は、 スラッシュだけでなく、任意の表示文字が可能です。 それがシングルクォート (tr'SEARCHLIST'REPLACEMENTLIST'
) の場合、 \\
の組から \
を削除する変換のみが行われます。
さもなければ、文字の範囲はハイフンを使って指定できます; tr/A-J/0-9/
は tr/ACEGIBDFHJ/0246813579/
と同じ置換を行います。
SEARCHLIST を括弧類で括った場合には、REPLACEMENTLIST 用に、もう一組の 区切り文字を用意しなければなりません; これは、括弧類であっても、なくてもかまいません; 例えば、tr[aeiouy][yuoiea]
や tr(+\-*/)/ABCD/
です。
文字はリテラルか、(区切り文字がシングルクォートでない場合) ダブルクォート文字列の中で受け入れられるエスケープシーケンスです。 しかし変数展開は行われないので、"$"
と "@"
は 常にリテラルとして扱われます。 先頭、末尾、および逆スラッシュが前置されたハイフンもまた常に リテラルとして扱われます。 エスケープシーケンスの詳細は この節の先頭付近の表 にあります。
tr
は \d
や \pL
といった正規表現文字クラスを 使わない ことに注意してください。 tr
演算子は tr(1)
ユーティリティと等価ではありません。 tr[a-z][A-Z]
は "a" から "z" までの 26 文字を大文字にしますが、 ASCII の範囲外の大文字小文字を変更する場合は、 lc
, uc
, lcfirst
, ucfirst
(全て perlfunc に文書化されています), あるいは 置換演算子 s/PATTERN/REPLACEMENT/
(REPLACEMENT 部での \U
, \u
, \L
, \l
文字列変換エスケープ) を 使ってください。
ほとんどの範囲は文字集合管で互換性がありませんが、一部のものは互換性を 持たせるために Perl が特別に扱います。 移植性のある範囲には二つのクラスがあります。 一つ目はリテラル文字として記述された A-Z
, a-z
, 0-9
の部分集合です。
tr/h-k/H-K/
とすると、プラットフォームの文字集合が何であるかに関わらず、 文字 "h"
, "i"
, "j"
, "k"
を大文字にして、それ以外は何もしません。 一方、次のようなもの全ては
tr/\x68-\x6B/\x48-\x4B/
tr/h-\x6B/H-\x4B/
tr/\x68-k/\x48-K/
ASCII プラットフォームで実行した場合は前述の例と同じ大文字かを行いますが、 EBCDIC プラットフォームでは全く違うことをします。
移植性のある範囲の二つ目のクラスは、範囲の片方または両方の端が \N{...}
として記述された場合です
$string =~ tr/\N{U+20}-\N{U+7E}//d;
これは、Unicode での U+0020, U+0021, ... U+007D, U+007E と等価な、 今のプラットフォームでの全ての文字を $string
から削除します。 これは移植性のある範囲で、実行される全てのプラットフォームで同じ効果が あります。 この例では、これらは ASCII の表示文字です。 従ってこれを実行した後、$string
は制御文字および ASCII で等価なものがない 文字のみとなります。
しかし、移植性のある範囲であっても、 マニュアルで調べる必要なしには、何が含まれるのかは 一般的に明らかではありません。 健全な原則としては、範囲の最初と最後をどちらも ASCII 英字 (大文字小文字も同じ)(b-e
, B-E
)にするか、どちらも数字にする(1-4
) ことです。 それ以外は不明確です(そして \N{...}
が使われていない限り 移植性はありません)。 疑わしいときは、文字セットを完全に書き出してください。
オプションは以下の通りです:
c SEARCHLIST を補集合にする。
d 見つかったが置換されなかった文字を削除する。
r 修正した結果を返し、もとの文字列はそのままにする。
s 置換された文字が重なったときに圧縮する。
/d
修飾子が指定されると、SEARCHLIST に指定されて、 REPLACEMENTLIST に対応するものがない文字が削除されます。 (これは、SEARCHLIST で見つかったものを削除する、ただそれだけの、ある種の tr プログラムの動作よりと比べれば、いく分柔軟なものになっています。)
/s
修飾子が指定されると、同じ文字に文字変換された文字の並びを、 その文字 1 文字だけに圧縮します。
my $a = "aaabbbca";
$a =~ tr/ab/dd/s; # $a now is "dcd"
/d
修飾子が使われると、REPLACEMENTLIST は、常に指定された通りに 解釈されます。 さもなければ、REPLACEMENTLIST が SEARCHLIST よりも短い場合、 同じ長さになるまで、最後の文字が繰り返されているものとして扱われます。 REPLACEMENTLIST が空文字列のときには最後の文字というものはなく、 その場合は REPLACEMENTLIST は SEARCHLIST からコピーされます。 空の REPLACEMENTLIST は、ある文字クラスに含まれる文字数を数えるときや、 ある文字クラスの文字の並びを圧縮するようなときに便利です。
tr/abcd// tr/abcd/abcd/
tr/abcd/AB/ tr/abcd/ABBB/
tr/abcd//d s/[abcd]//g
tr/abcd/AB/d (tr/ab/AB/ + s/[cd]//g) - but run together
/c
修飾子が指定されると、SEARCHLIST に「ない」ものが文字変換されます; つまり、補集合です。 /d
や /s
も指定されている場合、これらは SEARCHLIST の補集合に 適用されます。 REPLACEMENTLIST が空の場合、(/d
の下でなければ) 代わりに SEARCHLIST のコピーが使われることを思い出してください。 このコピーは、/c
の下の補集合化の後で行われます。 SEARCHLIST は補集合化の後で符号位置の順序でソートされ、 REPLACEMENTLIST はソートされた結果に対して適用されます。 つまり、/c
の下では、SEARCHLIST で指定された文字の順序は 無関係です。 REPLACEMENTLIST に複数の文字が含まれている場合、 EBCDIC システムでは異なった結果を引き起こすことがあるので、 そのような REPLACEMENTLIST に対して /c
を使うのは一般的に移植性がありません。
この操作を説明するもう一つの方法は次のものです: /c
が指定されると、SEARCHLIST は符号位置順にソートされ、 それから補集合化されます。 REPLACEMENTLIST が空で /d
が指定されていないと、 REPLACEMENTLIST は (/c
で修正された) SEARCHLIST のコピーに 置き換えられ、この変更されているかも知れないリストは引き続くものに対しての 基礎として使われます。 ターゲット文字列のうち、SEARCHLIST ににない文字は変更されずに そのままになります。 ターゲット文字列のその他のそれぞれの文字は、 SEARCHLIST の中の文字に位置的に対応する、 REPLACEMENTLIST の中の文字に置き換えられます; /s
の下では例外で、 連続して同じ文字に変換された文字並びの 2 文字目以降の文字は削除されます。 SEARCHLIST が REPLACEMENTLIST より長い場合、 SEARCHLIST の文字のうち REPLACEMENTLIST に対応するものが ない文字にマッチングしたターゲット文字列の中の文字は、 /d
が指定されていればターゲット文字列から削除されます; /d
が指定されていなければREPLACEMENTLIST の最後の文字に 置き換えられます。
いくつかの例:
$ARGV[1] =~ tr/A-Z/a-z/; # canonicalize to lower case ASCII
$cnt = tr/*/*/; # count the stars in $_
$cnt = tr/*//; # same thing
$cnt = $sky =~ tr/*/*/; # count the stars in $sky
$cnt = $sky =~ tr/*//; # same thing
$cnt = $sky =~ tr/*//c; # count all the non-stars in $sky
$cnt = $sky =~ tr/*/*/c; # same, but transliterate each non-star
# into a star, leaving the already-stars
# alone. Afterwards, everything in $sky
# is a star.
$cnt = tr/0-9//; # count the ASCII digits in $_
tr/a-zA-Z//s; # bookkeeper -> bokeper
tr/o/o/s; # bookkeeper -> bokkeeper
tr/oe/oe/s; # bookkeeper -> bokkeper
tr/oe//s; # bookkeeper -> bokkeper
tr/oe/o/s; # bookkeeper -> bokkopor
($HOST = $host) =~ tr/a-z/A-Z/;
$HOST = $host =~ tr/a-z/A-Z/r; # same thing
$HOST = $host =~ tr/a-z/A-Z/r # chained with s///r
=~ s/:/ -p/r;
tr/a-zA-Z/ /cs; # change non-alphas to single space
@stripped = map tr/a-zA-Z/ /csr, @original;
# /r with map
tr [\200-\377]
[\000-\177]; # wickedly delete 8th bit
$foo !~ tr/A/a/ # transliterate all the A's in $foo to 'a',
# return 0 if any were found and changed.
# Otherwise return 1
複数の文字変換が一つの文字について指定されると、最初のものだけが使われます。
tr/AAA/XYZ/
は A を X に変換します。
変換テーブルはコンパイル時に作られるので、SEARCHLIST も REPLACEMENTLIST もダブルクォート展開の対象とはなりません。 変数を使いたい場合には、eval()
を使わなければならないということです:
eval "tr/$oldlist/$newlist/";
die $@ if $@;
eval "tr/$oldlist/$newlist/, 1" or die $@;
<<EOF
クォートの行指向形式は、シェルの「ヒアドキュメント」構文を基にしています。 <<
に引き続いて、クォートされるテキストを終了させる文字列を指定でき、 現在の行の次の行から終端文字列までの全ての行がその項目の値となります。
終端文字列に ~
を前置することで、"Indented Here-docs" (後述)を 使いたいことを指定します。
終端文字列には、識別子(単語) かクォートされたテキストが使えます。 クォートされていない識別子は、ダブルクォートのように扱われます。 識別子がクォートされていない場合は、<<
と識別子の間に 空白を入れてはいけません。 終端文字列は終端行に単体で(クォートされず、前後にも空白なしで) 現れなければなりません。
終端文字列がクォートされている場合には、そのクォートの種類によって、 クォートされるテキストの扱い決められます。
ダブルクォートは、通常のダブルクォートされた文字列と全く同じ規則を使って 変数展開されることを示します。
print <<EOF;
The price is $Price.
EOF
print << "EOF"; # same as above
The price is $Price.
EOF
シングルクォートは、内容が展開されずにリテラルに扱われることを意味します。 これはシングルクォート文字列と似ていますが、バックスラッシュは 特別な意味を持たず、他の全てのクォート構造違って、\\
は 二つのバックスラッシュとして扱われることが違います。
シェルでの場合と同様、<<
に引き続いてバックスラッシュ付きの 裸の単語があると、シングルクォートされた文字列と同じこととなります:
$cost = <<'VISTA'; # hasta la ...
That'll be $10 please, ma'am.
VISTA
$cost = <<\VISTA; # Same thing!
That'll be $10 please, ma'am.
VISTA
これは、perl において、内容のエスケープについて心配する必要のない 唯一の形で、コードジェネレータがうまく使えるものです。
ヒアドキュメントのの内容は、文字列がバッククォートで 埋め込まれているかのように扱われます。 したがって、その内容、はダブルクォートされているかのように変数展開され、 その後シェル経由で実行され、実行された結果になります。
print << `EOC`; # execute command and get results
echo hi there
EOC
ヒヤドキュメント修飾子 ~
は、コードをより読みやすくするために ヒヤドキュメントをインデントできるようにします:
if ($some_var) {
print <<~EOF;
This is a here-doc
EOF
}
これは次のものを...
This is a here-doc
...先頭の空白なしで表示します。
The delimiter is used to determine the exact whitespace to remove from the beginning of each line. 全ての行は(改行のみの行を除いて)少なくとも同じだけの先頭の空白が なければならず、さもなければ perl は croak します。 タブとスペースは混ぜることが出来ますが、正確に マッチングしなければなりません。 一つのタブは 8 スペースと同じではありません!
(区切り文字で指定された以上の)追加の先頭の空白は保存されます:
print <<~EOF;
This text is not indented
This text is indented with two spaces
This text is indented with two tabs
EOF
最後に、この修飾子は前述した全ての型式で使うことが出来ます:
<<~\EOF;
<<~'EOF'
<<~"EOF"
<<~`EOF`
そして空白は ~
とクォートされた区切り文字の間にも使えます:
<<~ 'EOF'; # ... "EOF", `EOF`
複数のヒアドキュメントを連続してスタックすることも可能です:
print <<"foo", <<"bar"; # you can stack them
I said foo.
foo
I said bar.
bar
myfunc(<< "THIS", 23, <<'THAT');
Here's a line
or two.
THIS
and here's another.
THAT
以下のようなことをしたいのではないということが Perl にはわからないので、 文を終わらせるためには末尾にセミコロンをつけなければならないことを 忘れないで下さい:
print <<ABC
179231
ABC
+ 20;
ヒアドキュメントから行終端子を除去したい場合は、chomp()
を使ってください。
chomp($string = <<'END');
This is a string.
END
ヒアドキュメントをソースのほかの部分からインデントしたい場合、 "Indented Here-docs" に記述されている <<~FOO
構文を使ってください:
$quote = <<~'FINIS';
The Road goes ever on and on,
down from the door where it began.
FINIS
s///eg
のようなデリミタ構造の中でヒアドキュメントを使う場合、 クォートされたものは、やはり区切られた構造の内側を意味するかもしれない <<FOO
マーカーに引き続くものとして来なければなりません:
s/this/<<E . 'that'
the other
E
. 'more '/eg;
この方法は Perl 5.18 から動作します。 歴史的には、これは一貫性がなく、以下のように
s/this/<<E . 'that'
. 'more '/eg;
the other
E
文字列 eval の外側で書く必要があります。
さらに、文字列終端識別子に対するクォートルールは Perl のクォートルールとは 関係がありません。 q()
, qq()
および同種のものは ''
や ""
の 代わりのなるものには対応しておらず、文字をクォートするための バックスラッシュだけが展開されます:
print << "abc\"def";
testing...
abc"def
最後に、クォートされた文字列は複数行にかかることはありません。 識別子に関する一般的なルールは、文字列リテラルでなければならいことです。 これに従っていれば、安全のはずです。
何か複数の解釈が可能な表現があった場合、Perl は最も確からしい解釈を 選択するために DWIM ("Do What I Mean")原則を使います。 この戦略は非常に成功したので、Perl プログラマはしばしば 自分が書いたものの矛盾を疑いません。 しかし時間がたつにつれて、Perl の概念は作者が本当に意味していたものから かなり変わりました。
この章では Perl がどのようにクォートされた構造を扱うかを 明確にしようと思います。 これを学ぼうとする最もよくある理由は正規表現の迷宮をほぐすためですが、 パースの初期ステップは全てのクォート演算子で同じなので、全て同時に扱います。
Perl のパースに関するルールで最も重要なものは以下で述べているうち 最初のものです: つまり、クォートされた構造を処理するときは、Perl はまずその 構造の最後を探して、それから中身を解釈します。 このルールがわかれば、とりあえずはこの章の残りは読み飛ばしてもかまいません。 その他のルールは最初のルールに比べてユーザーの予想に反する頻度は はるかに少ないです。
以下で議論するパスには同時に実行されるものもありますが、 結果は同じことなので、別々に考えることにします。 クォート構造の種類によって、Perl が実行するパスの数は 1 から 4 まで異なりますが、これらのパスは常に同じ順番で実行されます。
最初のパスは、クォート構造の末尾を探すことです。 これにより、(開始デリミタと終了デリミタの間の)テキストは安全な場所に コピーされ、元のデリミタが何だったかを知る必要がないように正規化されます。
構造がヒアドキュメントの場合、終了デリミタは内容として終端文字列を持つ 行です。 従って、<<EOF
は、"\n"
の直後の、終端行の最初の列から始まる EOF
で 終端します。 ヒアドキュメントの終端行を探すとき、読み飛ばされるものはありません。 言い換えると、ヒアドキュメント文法以降の行は、1 行毎に終端文字列と 比較されます。
ヒアドキュメント以外の構造では、1 文字が開始デリミタと終了デリミタとして 使われます。 開始デリミタが組の開き文字((
, [
, {
, <
のいずれか)の場合、 終了デリミタは対応する組の閉じ文字(つまり )
, ]
, }
, >
) です。 開始デリミタが /
組になる文字や、組の閉じ文字の場合、終了デリミタは 開始デリミタと同じです。 従って /
は qq//
構造を終端し、一方 ]
は qq[]
と qq]]
の 両方の構文を終端します。
1 文字のデリミタを探す場合、エスケープされたデリミタと \\
は 読み飛ばします。 例えば、/
を探しているときには、\\
と \/
の組み合わせを 読み飛ばします。 デリミタがかっこでくくられている場合は、ネストした組も読み飛ばされます。 例えば、開きの [
と組になる閉じの ]
を探しているときには、 \\
, \]
, \[
の組み合わせをは全て読み飛ばし、 さらにネストした [
, ]
も読み飛ばします。 しかし、(qq\\
や tr\\\
のように)バックスラッシュがデリミタとして 使われた場合、何も読み飛ばしません。 末尾の検索中、デリミタやその他のバックスラッシュをエスケープする バックスラッシュは除去されます(述べたとおりに正確に、安全な場所に コピーはされません)。
3 つのデリミタからなる構造 (s///
, y///
, tr///
) の場合、 検索はもう一度繰り返されます。 最初のデリミタが開きかっこでない場合、s!!!
and tr)))
のように 3 つのデリミタは同じでなければなりません; この場合、2 番目のデリミタが左側の終端と右側の開始を同時に行います。 左側のデリミタがかっこを構成するもの (これは ()
, []
, {}
, <>
のいずれか) の場合、右側も s(){}
や tr[]//
のようなデリミタである必要があります。 これらの場合、右側と左側の間には空白やコメントを置けますが、 コメントは少なくとも一つの空白文字の後である必要があります; さもなければコメントの開始文字が右側の開始デリミタとして扱われてしまいます。
検索する間、構造の文脈は考慮しません。 従って:
"$hash{"$foo/$bar"}"
または:
m/
bar # NOT a comment, this slash / terminated m//!
/x
は正しいクォート表現ではありません。 クォートは最初の "
や /
で終わりとなり、残りの部分は文法エラーと なります。 m//
を終わらせているスラッシュの次に来ているのが 空白
なので、 上の例では m//x
ではなく、/x
なしの m//
となります。 従って、中にある #
はリテラルな #
として扱われます。
この検索の間、\c\
(マルチバイト文字制御文法)に注意は払われません。 従って、qq/\c\/
の 2 番目の \
は \/
の一部として扱われ、 引き続く /
はデリミタとして認識されません。 代わりに、クォート構造の末尾に \034
か \x1c
を使ってください。
次のステップは、得られた(デリミタに依存しない)テキストに対する展開です。 複数のケースがあります。
<<'EOF'
展開は行われません。 \\
の組み合わせはそのままであることに注意してください; ヒアドキュメントではデリミタのエスケープはできないからです。
m''
, the pattern of s'''
このステージでは展開は行われません。 \\
を含む、バックスラッシュ付きのシーケンスは "parsing regular expressions" で扱われます。
''
, q//
, tr'''
, y'''
, the replacement of s'''
\\
の組における \
の削除のみが行われます。 従って、tr'''
や y'''
の中にある "-"
は文字通りハイフンとして扱われ、 文字範囲は使えません。 s'''
の置換文字列での \1
は $1
としては動作しません。
tr///
, y///
変数展開は行われません。 \Q
, \U
, \E
のような、大文字小文字やクォートに関する、文字列を 変更するような組み合わせは認識されません。 \200
や \t
のようなその他のエスケープシーケンスや、 \\
や \-
のようなバックスラッシュ付きの文字は、適切なリテラルに 変換されます。 文字 "-"
は特別扱いされるので、\-
はリテラルな "-"
として扱われます。
""
, ``
, qq//
, qx//
, <file*glob>
, <<"EOF"
\Q
, \U
, \u
, \L
, \l
, \F
(おそらくは \E
との組)は 対応する Perl 構造に変換されます。 従って、"$foo\Qbaz$bar"
は内部的に $foo . (quotemeta("baz" . $bar))
に変換されます。 \200
や \t
のような、その他のエスケープシーケンスや、\\
や \-
のような、バックスラッシュがつけられた文字は適切な拡張に 置換されます。
\Q
と \E
の間にある全てのもの が通常の方法で展開されます。 "\Q\\E"
のようなものは内部にあるのは \E
ではありません。 \Q
, \\
, E
であるので、結果は "\\\\E"
と同じになります。 一般的なルールとして、\Q
と \E
の間にあるバックスラッシュは 直感に反した結果になります。 それで、"\Q\t\E"
は quotemeta("\t")
に変換され、これは(TAB は 英数字ではないので "\\\t"
と同じです。 以下のようなことにも注意してください:
$str = '\t';
return "\Q$str";
これは "\Q\t\E"
を書いた人の憶測上の 意図 により近いです。
展開されたスカラと配列は内部で join
と "."
の結合操作に変換されます。 従って、"$foo XXX '@arr'"
は以下のようになります:
$foo . " XXX '" . (join $", @arr) . "'";
上記の全ての操作は、左から右に同時に行われます。
"\Q STRING \E"
の結果は全てのメタ文字がクォートされているので、 \Q\E
の組の内側にリテラルの $
や @
を挿入する方法はありません。 \
によって守られている場合、$
はクォートされて "\\\$"
と なります; そうでない場合、これは展開されるスカラ変数の開始として 解釈されます。
展開コードは、展開するスカラ変数がどこで終わるかを決定する必要が あることにも注意してください。 例えば、"a $x -> {c}"
が実際には以下のどちらかになります:
"a " . $x . " -> {c}";
または:
"a " . $x -> {c};
ほとんどの場合、要素と、マッチする中かっこや大かっこの間に空白を含まない、 最も長いテキストになります。 出力は発見的な推定器をよる投票によって決定されるので、結果は厳密には 予測できません。 幸い、紛らわしい場合でも普通は正しいです。
s///
\Q
, \U
, \u
, \L
, \l
, \F
の処理と展開が qq//
構造と 同じように起こります。
このステップでは、より健全な文法をまだ導入していない、手に負えない sed ハッカーのために、s///
の置換テキストの中にある \1
を、しぶしぶながら $1
に変換します。 use warnings
プラグマやコマンドラインオプション -w (これは $^W
変数です) がセットされていると警告が生成されます。
RE
in m?RE?
, /RE/
, m/RE/
, s/RE/foo/
,\Q
, \U
, \u
, \L
, \l
, \F
, \E
の処理と展開が qq//
構文と (ほとんど)同じように起こります。
\N{...}
の処理もここで行われ、正規表現コンパイラのための中間形式に コンパイルされます。 (これは、後述するように、正規表現のコンパイルは実行時に行われ、 \N{...}
はコンパイル時の構文だからです。)
しかし、その他の、\
の後に文字が続く組み合わせは置換されず、単に 読み飛ばされます; これは以下のステップで正規表現としてパースするためです。 ここでは \c
は読み飛ばされるので、正規表現中の \c@
の @
は 配列のシンボル(例えば @foo
) と扱われる可能性があります; 一方 qq//
内の同じテキストは \c@
と展開されます。
(?{BLOCK})
のようなコードブロックは、一時的に制御を perl パーサに 渡すことで扱われます; これは "foo$array[1+f("[xyz")]bar"
のような、 変数展開される配列添え字表現と同様の方法です。
さらに、(?{BLOCK})
, (?# comment )
, /x
正規表現での #
の コメントの中では、どのような処理も行われません。 これは /x
修飾子が影響を与える最初のステップです。
パターン内の展開ではいくつか特殊な動作をします: $|
, $(
, $)
, @+
, @-
は展開されず、 $var[SOMETHING]
は(いくつかの異なる推定器によって)配列の要素か $var
の後に正規表現が続いているのかが投票されます。 これは ${arr[$bar]}
が便利になるところです: /${arr[0-9]}/
は 配列要素 -9
として解釈され、/$arr[0-9]/
の場合のように $arr
の後に 数値が続いているような正規表現としては解釈されません。 異なった推定器によって投票されることがあるので、結果は予測できません。
\\
を処理しないことにより、後処理したテキストに特定の制限があります。 デリミタが /
の場合、このステップの結果として \/
を得ることは できません。 /
は正規表現を終わらせ、\/
は前のステップで /
に展開され、 \\/
はそのまま残されます。 /
は正規表現の中では \/
と等価なので、これはたまたまデリミタが 正規検索エンジンにとって特別な文字の場合、つまり s*foo*bar*
, m[foo]
, m?foo?
のような場合、あるいは以下のように英数字でなければ、 問題にはなりません:
m m ^ a \s* b mmx;
上記の正規表現では、説明のために意図的にわかりにくくしていますが、 デリミタは m
で、修飾子は mx
で、デリミタを取り除いた後の 正規表現は m/ ^ a \s* b /mx
と同じです。 デリミタを英数字や空白でないものに制限するべきである理由は複数あります。
これは正規表現以外の全ての構造にとって最後のステップです; 正規表現は さらに処理が続きます。
以前のステップは Perl コードのコンパイル中に実行されますが、 これは実行時に起こりますが、もし適切ならコンパイル時に 計算できるように最適化されることもあります。 上記の前処理の後、そして必要なら連結、結合、大文字小文字変換、 メタクォート化が行われた後、結果の 文字列 がコンパイルのために 正規表現エンジンに渡されます。
正規表現エンジンで起こることについては perlre で議論した方が よいでしょうが、継続性のために、ここでそれを行います。
これも /x
修飾子の存在が関連するステップの一つです。 正規表現エンジンは文字列を左から右にスキャンして、有限状態オートマトンに 変換します。
バックスラッシュ付きの文字は(\{
のように)対応するリテラル文字列に 置換されるか、あるいは(\b
のように)有限状態オートマトンの特別な ノードを生成します。 (|
のような)正規表現エンジンにとって特別な文字は対応するノードか ノードのグループを生成します。 (?#...)
コメントは無視されます。 残りの全てはマッチするリテラル文字列に変換されるか、そうでなければ (/x
が指定された時の空白と #
スタイルのコメントと同様に) 無視されます。
文字クラス構造 [...]
のパースは他のパターンとはルールが異なります。 この構造の終端は {}
でデリミタされた構造の終端を検索するのと同じルールで 検索されます; 唯一の例外は、[
の直後の ]
はバックスラッシュが 先行しているものとして扱われます。
実行時 (?{...})
の終端は、一時的に perl パーサに制御を切り替えることで 見つけられ、論理的にバランスした終端 }
が見つかって場所で停止します。
正規表現に与えられる文字列と、結果としての有限状態オートマトンの両方を 検査できます。 use re
プラグマの debug
/debugcolor
引数と、 "Command Switches" in perlrun に記述されている -Dr コマンドライン オプションを参照してください。
このステップは完全性のためだけにリストされています。 これは意味論的には変化がないので、このステップの詳細は文書化されておらず、 将来予告なしに変更されることがあります。 このステップはここまでの処理で生成された有限オートマトンに対して 適用されます。
split()
で /^/
を暗黙に /^/m
に最適化するのもこのステップです。
知っておいた方がよい I/O 演算子もいくつかあります。
バッククォートで括られた文字列は、まず、ダブルクォート補完のように 変数の展開が行なわれます。 その後、シェルでの場合と同じように、外部コマンドとして解釈され、 そのコマンドの出力がこのバッククォート文字列の値となります。 スカラーコンテキストでは、出力すべてを含む一個の文字列が返されます。 リストコンテキストでは、出力の 1 行 1 行が個々の要素となるリストが返されます。 ($/
を設定すれば、行の終わりを示す文字を変えることができます。) コマンドは、この擬似リテラルが評価されるごとに実行されます。 コマンドのステータス値は $?
に返されます ($?
の解釈については、 perlvar を参照してください)。 csh での場合とは違って、結果のデータに対する変換は行なわれず、 改行は改行のままです。 どのシェルとも違って、シングルクォートがコマンド中の変数名を 解釈させないようにすることはありません。 シェルにリテラルなドル記号を渡すには、バックスラッシュで エスケープしなければなりません。 バッククォートの一般形は、qx//
か、 "readpipe" in perlfunc 関数を呼び出せます。 (バッククォートは常にシェル展開されます。 セキュリティに関しては perlsec を参照して下さい。)
スカラーコンテキストで山括弧の中のファイルハンドルを評価すると、 そのファイルから、次の行を読み込むことになります (改行があればそれも含まれます); ファイルの最後またはエラーの場合は undef
を返します。 $/
が undef
に設定されている場合(ファイル吸い込みモードと呼ばれます) でファイルが空の場合、 最初は ''
を返し、次は undef
を返します。
通常は、返された値を変数に代入しなければなりませんが、自動的に 代入される場合が 1 つだけあります。 この入力シンボルが、while 文(for(;;)
の形になっていたとしても)の条件式中に 単独で現れた場合だけは、その値が自動的にグローバル変数 $_
に代入されます; 以前の値は破壊されます。 (これは、奇妙に思えるかもしれませんが、ほとんどすべての Perl スクリプトで これが必要になることでしょう。) $_
変数は暗黙にはローカル化されません。 そうしたい場合はループの前に local $_;
と書く必要があります。 さらに、入力シンボルまたは入力シンボルからスカラへの明示的な代入が while
/for
の条件部として使われた場合、 条件は通常の真の値かどうかではなく、式の値が定義されているかどうかを テストします。
従って、以下のものは互いに同値なものです:
while (defined($_ = <STDIN>)) { print; }
while ($_ = <STDIN>) { print; }
while (<STDIN>) { print; }
for (;<STDIN>;) { print; }
print while defined($_ = <STDIN>);
print while ($_ = <STDIN>);
print while <STDIN>;
以下は同様の振る舞いをしますが、$_
おn代わりにレキシカル変数に 代入します:
while (my $line = <STDIN>) { print $line }
これらのループ構造の中で、代入された値は (代入が自動か明示的かに関わりなく) 定義されているかどうかを見るためにテストされます。 定義テストは、行が Perl にとって偽となる文字列値を持っているかどうかの 問題を避けます; 例えば newline のついていない "" や "0"
です。 もし本当にこのような値でループを終了させたいときは、 以下のように明示的にテストするべきです:
while (($_ = <STDIN>) ne '0') { ... }
while (<STDIN>) { last unless $_; ... }
その他の真偽値コンテキストでは、明示的な defined
や比較なしに <FILEHANDLE>
を使うと、use warnings
プラグマや -w コマンドラインスイッチ ($^W
変数) が有効なときには、 警告を発生させます。
STDIN、STDOUT、STDERR というファイルハンドルは、あらかじめ定義されています。 (stdin
、stdout
、stderr
というファイルハンドルも、 ローカルな名前でこれらのグローバルな名前が見えなくなっている パッケージを除けば、使用することができます。) その他のファイルハンドルは、open()
関数などで作ることができます。 これに関する詳細については perlopentut と "open" in perlfunc を 参照して下さい。
<FILEHANDLE>
がリストを必要とするコンテキストで用いられると、 1 要素に 1 行の入力行すべてからなるリストが返されます。 これを使うと簡単にかなり大きなデータになってしまいますので、 注意を要します。
<FILEHANDLE>
は readline(*FILEHANDLE)
とも書けます。 "readline" in perlfunc を参照して下さい。
ヌルファイルハンドル <>
(時々ダイヤモンド演算子と呼ばれます) は特別で、 sed や awk および、ファイル名のリストを取って、 それら全てからの入力の各行に同じことをするような その他の Unix フィルタプログラムをエミュレートするために使われます。 <>
からの入力は、標準入力からか、コマンドライン上に並べられた個々の ファイルから行なわれます。 動作の概要は、以下のようになります: 最初に <>
が評価されると、配列 @ARGV
が調べられ、空であれば、$ARGV[0]
に "-"
を設定します。 これは、open されるとき標準入力となります。 その後、配列 @ARGV
がファイル名のリストとして処理されます。
while (<>) {
... # code for each line
}
は以下ののような Perl の擬似コードと等価です:
unshift(@ARGV, '-') unless @ARGV;
while ($ARGV = shift) {
open(ARGV, $ARGV);
while (<ARGV>) {
... # code for each line
}
}
但し、わずらわしく書かなくても、動作します。 実際に @ARGV
を shift しますし、その時点のファイル名を変数 $ARGV
に 入れています。 また、内部的にファイルハンドル ARGV を使っています。 <>
は <ARGV>
の同義語で、マジカルです。 (上記の擬似コードは、<ARGV>
をマジカルではないものとして 扱っているので、うまく動作しません。)
空ファイルハンドルは 2 引数の "open" in perlfunc を使った特別な文字列なので、 もし以下のようなスクリプトを書いて:
while (<>) {
print;
}
これを perl dangerous.pl 'rm -rfv *|'
として呼び出すと、実際には パイプを開き、rm
コマンドを実行して、 rm
の出力をパイプから読みます。 もし @ARGV
の全ての要素をファイル名として解釈させたいなら、 CPAN にある ARGV::readonly
モジュールか、二重ダイヤモンド山かっこが 使えます。
while (<<>>) {
print;
}
while の中で二重角かっこを使うと、 3 引数型式 (かつ 2 番目の引数が <
の) open を引き起こすので、 ARGV
の全ての引数は ("-"
を含めて) リテラル名ファイル名として 扱われます。 (便宜のため、<<>>
を使って @ARGV
が空の場合、標準入力から 読み込みます。)
最終的に、@ARGV
に扱いたいと思っているファイル名が含まれるのであれば、 最初に <>
を評価する前に @ARGV
を変更することも可能です。 行番号 ($.
) は、入力ファイルがあたかも 1 つの大きなファイルで あるかのように、続けてカウントされます。 個々のファイルごとにリセットする方法は、"eof" in perlfunc の例を 参照してください。
最初から @ARGV
に自分でファイルのリストを設定してもかまいません。 以下は @ARGV
が与えられなかったときに全てのテキストファイルを @ARGV
に設定します。
@ARGV = grep { -f && -T } glob('*') unless @ARGV;
ここにパイプコマンドを置くことも出来ます。 例えば、以下は圧縮された引数を自動的に gzip のフィルタに通します:
@ARGV = map { /\.(gz|Z)$/ ? "gzip -dc < $_ |" : $_ } @ARGV;
スクリプトにスイッチを渡したいのであれば、Getopts
モジュールを 使うこともできますし、実際の処理の前にのようなループを置くこともできます。
while ($_ = $ARGV[0], /^-/) {
shift;
last if /^--$/;
if (/^-D(.*)/) { $debug = $1 }
if (/^-v/) { $verbose++ }
# ... # other switches
}
while (<>) {
# ... # code for each line
}
シンボル <>
がファイルの最後で undef
を返すのは一度きりです。 そのあとでもう一度呼び出すと、新たに別の @ARGV
を処理するものとみなされ、 その時に @ARGV
を設定しなおしていないと、STDIN からの入力を 読み込むことになります。
山括弧の中の文字列が ($foo
のような) 単純スカラ変数であれば、 その変数が入力を行なうファイルハンドルの名前そのもの、名前への型グロブ、 名前へのリファレンスのいずれかを示しているとみなされます。 例えば:
$fh = \*STDIN;
$line = <$fh>;
山括弧の中の文字列がファイルハンドルでもファイルハンドル名、型グロブ、 型グロブリファレンスのいずれかが入った単純スカラ変数でもなければ、 グロブを行なうファイル名のパターンと解釈され、コンテキストによって ファイル名のリストか、そのリストの次のファイル名が返されます。 この区別は単に構文的に行われます。 <$x>
は常に間接ハンドルから readline()
しますが、 <$hash{key}>
は常に glob()
します。 $x
は単純スカラー変数ですが、$hash{key}
は違う(ハッシュ要素)からです。 <$x >
(余分な空白に注意) ですら readline($x)
ではなく glob("$x ")
として扱われます。
まず、1 段階だけダブルクォート展開が行なわれますが、前の段落に書いた 間接ファイルハンドルと同じになる、<$foo>
のようには書けません。 (Perl の古いバージョンでは、ファイル名グロブと解釈させるために <${foo}>
のように中括弧を入れていました。 最近ではより明確にするために、glob($foo)
と内部関数を呼ぶことも できます; おそらく、まず、こちらの方で試すのが正解でしょう。) 例えば:
while (<*.c>) {
chmod 0644, $_;
}
はだいたい以下と等価です:
open(FOO, "echo *.c | tr -s ' \t\r\f' '\\012\\012\\012\\012'|");
while (<FOO>) {
chomp;
chmod 0644, $_;
}
但し実際のグロブは内部的に標準の File::Glob
モジュールを使います。 もちろん、もっと簡単に以下のように書けます:
chmod 0644, <*.c>;
(ファイル)グロブは新しいリストを開始するときにだけ(組み込みの)引数を 評価します。 全ての値は開始する前に読み込んでいなければなりません。 これはリストコンテキストでは、とにかく自動的に全てを取り込むので 重要ではありません。 しかし、スカラコンテキストではこの演算子は呼び出された時の 次の値か、リストがなくなったときには undef
を返します。 ファイルハンドルを読み込む場合は、グロブが while
の条件部にある場合は 自動的な defined
が生成されます; なぜならそうしないと、本来の glob の返り値 (例えば、0 というファイル) が ループを終了させるからです。 ここでも、undef
は一度だけ返されます。 従って、もしグロブから一つの値だけを想定している場合、 以下のように書くことが:
($file) = <blurch*>;
以下のように書くよりはるかに良いです:
$file = <blurch*>;
なぜなら後者はファイル名を返す場合と偽を返す場合があるからです。
変数変換に挑戦する場合、明らかに glob()
関数を使う方が良いです; なぜなら古い表記は間接ファイルハンドル表記と混乱するかも知れないからです。
@files = glob("$dir/*.[ch]");
@files = glob($files[$i]);
角かっこグロブ式が while
や for
ループの条件として使われた場合、 これは暗黙に $_
に代入されます。 さらに、グロブ式またはグロブ式からスカラへの明示的な代入が while
/for
の条件部として使われた場合、 条件は通常の真の値かどうかではなく、式の値が定義されているかどうかを テストします。
C と同じように Perl でも、演算子に対するすべての引数がスタティックで、 副作用がないと判断できれば、コンパイル時に式の評価を行なってしまいます。 特に、変数置換の無いリテラルどうしの文字列連結はコンパイル時に行なわれます。 バックスラッシュの解釈もコンパイル時に行なわれます。 以下のように書けて、
'Now is the time for all'
. "\n"
. 'good men to come to.'
内部的に 1 つの文字列になります。同様に
foreach $file (@filenames) {
if (-s $file > 5 + 100 * 2**16) { }
}
と書くとコンパイラは、式が表わす数値をあらかじめ計算しますので、 インタプリタで計算する必要がなくなっています。
Perl は公式には無実行演算子はありませんが、裸の定数 0
と 1
は 特別に無効コンテキストでも警告を出さないことになっているので、 例えば安全に以下のように書けます:
1 while foo();
任意のサイズのビット列はビット単位演算子(~ | & ^
)で操作できます。
二項ビット単位演算子のオペランドが異なった長さの文字列だった場合、 | と ^ の演算子は短い側のオペランドの右側に追加のゼロが ついているとみなします; 一方 & 演算子は長い方のオペランドが短い方に 切り詰められます。 この拡張や短縮の粒度はバイト単位です。
# ASCII-based examples
print "j p \n" ^ " a h"; # prints "JAPH\n"
print "JA" | " ph\n"; # prints "japh\n"
print "japh\nJunk" & '_____'; # prints "JAPH\n";
print 'p N$' ^ " E<H\n"; # prints "Perl\n";
ビット列を操作したい場合は、確実にビット列が渡されるようにしてください: オペランドが数字の場合、数値 ビット単位演算を仮定します。 明示的に演算の型を指定するときには、以下の例のように ""
か 0+
を使ってください。
$foo = 150 | 105; # 255 になる (0x96 | 0x69 は 0xFF)
$foo = '150' | 105; # 255 になる
$foo = 150 | '105'; # 255 になる
$foo = '150' | '105'; # (ASCII では) 文字列 '155' になる
$baz = 0+$foo & 0+$bar; # どちらのオペランドも明示的に数値
$biz = "$foo" ^ "$bar"; # どちらのオペランドも明示的に文字列
この、いくらか予測の難しい振る舞いは、Perl 5.22 で導入された "bitwise" 機能で避けることができます。 これは use feature 'bitwise'
か use v5.28
で有効にできます。 Perl 5.28 より前では、これは "experimental::bitwise"
カテゴリの警告を 出力していました。 この機能の基では、四つのビット単位演算子 (~ | & ^
) は常に数値です。 それぞれの演算子の後にピリオドを付ける (~. |. &. ^.
) ことで、 そのオペランドを文字列として扱うことを強制します:
use feature "bitwise";
$foo = 150 | 105; # yields 255 (0x96 | 0x69 is 0xFF)
$foo = '150' | 105; # yields 255
$foo = 150 | '105'; # yields 255
$foo = '150' | '105'; # yields 255
$foo = 150 |. 105; # yields string '155'
$foo = '150' |. 105; # yields string '155'
$foo = 150 |.'105'; # yields string '155'
$foo = '150' |.'105'; # yields string '155'
$baz = $foo & $bar; # both operands numeric
$biz = $foo ^. $bar; # both operands stringy
この機能の基では、これらの演算子の亜種 (&= |= ^= &.= |.= ^.=
) も 同様に振る舞います。
値が 0xFF 以上で、UTF-8 以外で表現できない文字がオペランドに含まれている 場合、これは致命的エラーになります。 他の UTF-8 でエンコードされたオペランドに対して 非 UTF-8 のコピーに対して操作が行われます。 "Byte and Character Semantics" in perlunicode を参照してください。
ビットベクタの個々のビットをどのように操作するかの情報については "vec" in perlfunc を参照して下さい。
デフォルトでは、Perl は演算を浮動小数で行なわなければならないものと しています。 しかし、(もしそうしたいなら)
use integer;
と書けば、その場所から現在の BLOCK の終わりまでは、整数演算 (詳しい説明は integer を参照してください) を 行なってよいと、コンパイラに指示することができます。 内部の BLOCK で、
no integer;
と書けば、その BLOCK の終わりまでは、指示を取り消すことになります。 これは全てを整数だけを使って処理することを意味するわけではなく、 単に Perl が算術、比較、ビット単位演算子で整数演算を するというだけであることに注意してください。 例えば、use integer
の指定があっても、sqrt(2)
とすると、 1.4142135623731
といった結果が返ってきます。
数値を使う場合、ビット単位演算子 (&
|
^
~
<<
>>
) は 常に整数の結果を生成します。 (但し "Bitwise String Operators" も参照して下さい。) しかし、それでも use integer
は意味があります。 デフォルトでは、これらの結果は符号なし整数として解釈されますが、 use integer
が有効の場合は、符号付き整数として解釈されます。 例えば、~0
は通常大きな整数の値として評価されます。 しかし、use integer; ~0
は 2 の補数のマシンでは -1
になります。
use integer
が整数演算を提供する一方、数を特定の桁で自動的に丸めたり 切り捨てたりする機構はありません。 数を丸めるには、sprintf()
や printf()
を使うのが一番簡単な方法です。 perlfaq4 を参照して下さい。
浮動小数点数は数学者が実数と呼ぶものの近似でしかありません。 実数は浮動小数点より無限に続くので、多少角が丸められます。 例えば:
printf "%.20g\n", 123456789123456789;
# produces 123456789123456784
浮動小数点数が等しいかどうかをちょうど同じかどうかで比較するのはよい 考えではありません。 以下に、二つの浮動小数点数が指定された桁まで等しいかどうかを 比較する(比較的重い)次善の策を示します。 この問題に関するより厳密な扱いについては Knuth, volume II を参照して下さい。
sub fp_equal {
my ($X, $Y, $POINTS) = @_;
my ($tX, $tY);
$tX = sprintf("%.${POINTS}g", $X);
$tY = sprintf("%.${POINTS}g", $Y);
return $tX eq $tY;
}
POSIX モジュール(Perl 標準配布パッケージの一部) は ceil()
, floor()
及び その他の数学関数や三角関数を実装しています。 Math::Complex
モジュール(Perl 標準配布パッケージの一部)は実数と虚数の 両方で動作する数学関数を定義しています。 Math::Complex
は POSIX ほど効率的ではありませんが、POSIX は複素数は 扱えません。
金融アプリケーションにおける丸めは深刻な影響を与える可能性があり、 使用する丸めメソッドは指定された精度で行われるべきです。 このような場合、Perl が使用するシステム丸めを信用せず、 代わりに自分自身で丸め関数を実装するべきです。
標準の Math::BigInt
, Math::BigRat
, Math::BigFloat
モジュールと bignum
, bigint
, bigrat
プラグマは多倍長演算を提供し、 演算子をオーバーロードしますが、これらは現在のところかなり遅いです。 多少の領域とかなりの速度を犠牲にして、桁数が制限されていることによる ありがちな落とし穴を避けることができます。
use 5.010;
use bigint; # easy interface to Math::BigInt
$x = 123456789123456789;
say $x * $x;
+15241578780673678515622620750190521
あるいは分数を使って:
use 5.010;
use bigrat;
$x = 3/22;
$y = 4/6;
say "x/y is ", $x/$y;
say "x*y is ", $x*$y;
x/y is 9/44
x*y is 1/11
(メモリと CPU 時間のみに依存する)無制限か固定の精度での計算ができる モジュールがいくつかあります。 さらに外部 C ライブラリを使ってより速い実装を提供する 非標準のモジュールもあります。
以下は短いですが不完全なリストです。
Math::String 文字列を数値のように扱う
Math::FixedPrecision 固定精度で計算する
Math::Currency 通貨の計算用
Bit::Vector (C を使って)ビットベクタを速く操作する
Math::BigIntFast 大きな数のための Bit::Vector のラッパー
Math::Pari Pari C ライブラリへのアクセスを提供する
Math::Cephes 外部の Cephes C を使う(大きな数はなし)
Math::Cephes::Fraction Cephes ライブラリを使った分数
Math::GMP これも外部 C ライブラリを使う
Math::GMPz libgmp の大きな整数へのもう一つのインターフェース
Math::GMPq libgmp の分数へのインターフェース
Math::GMPf libgmp の浮動小数点のインターフェース
うまく選んでください。