NAME

perlop - Perl の演算子と優先順位

DESCRIPTION

Perl では、演算子はどんな演算を行うかをオペランドの型と独立して決定します。例えば $x + $y は常に数値加算で、$x や $y に数値でないものが含まれている場合、まずそれらを数値に変換しようとします。

これは、最初の引数の型によって演算が決定されるその他の多くの動的言語と対照的です。これはまた、数値比較用と文字列比較用の 2 種類の演算子があるということです。例えば $x == $y は二つの数値の等価性を比較し、$x eq $y は二つの文字列を比較します。

しかし、いくつかの例外があります: x は左オペランドの型によって、文字列の繰り返しの場合とリストの繰り返しの場合があります; また &, |, ^, ~ は文字列としてのビット演算と数値としてのビット演算の場合があります。

演算子の優先順位と結合性

Perl での演算子の優先順位と結合性は多かれ少なかれ数学のものと似ています。

演算子の優先順位 とは、他の演算子グループよりもしっかりと結びついている演算子グループがあるということです。例えば、2 + 4 * 5 の場合、乗算が高い優先順位を持っているので、 2 + 4 が乗算の左オペランドとしてまとめられるのではなく、 4 * 5 が加法の右オペランドとしてまとめられます。これは、(2 + 4) * 5 ではなく、2 + (4 * 5) と書かれたかのようなものです。従って、この式は 6 * 5 == 30 ではなく 2 + 20 == 22 になります。

演算子の結合性 は、同じ演算子が連続して現れた場合に何が起こるかを定義します: 通常はそれらが左側と結びつくか右側と結びつくかです。例えば 9 - 3 - 2で、減法は左結合なので、 3 - 2 が最初の減法の右オペランドとしてまとめられるのではなく、 9 - 3 が 2 番目の減法の左オペランドとしてまとめられます。これは、9 - (3 - 2) ではなく (9 - 3) - 2 と書かれたかのようなものです。従って、この式は 9 - 1 == 8 ではなく 6 - 2 == 4 になります。

全てのオペランドを評価してから何らかの形で値を結合する単純な演算子の場合、優先順位と結合性(とかっこ)はそれらの結合操作である種の順序要求を暗示します。例えば 2 + 4 * 5 では、優先順位が暗示するグループ化によって、 4 と 5 の乗算は 2 と 20 の加算の前に行われる必要があります。単にこの乗法の結果が加法のオペランドの一つとして必要だからです。しかし、演算の順序はこれによって完全に決定されるわけではありません: 2 * 2 + 4 * 5 では、両方の乗算は加算の前に行われなければなりませんが、グループ化は二つの乗算が行われる順序については何も言っていません。実際の所、Perl には、演算子のオペランドは左から右の順で評価されるという一般的な規則があります。 &&= のようないくつかの演算子は、全く評価されないオペランドとなる特別な評価規則を持ちます; 一般的に、式の中の最上位の演算子がオペランド評価を制御します。

一部の比較演算子は、それらの優先順位と、同じ優先順位を持つ一部の演算子と連鎖させることができます (異なる優先順位を持つ演算子とはできません)。連鎖というのは、それぞれの比較はそれらの周りの二つの引数に対して行われ、それぞれの内部引数は二つの比較の一部となり、比較結果は暗黙に AND されるということです。従って "$x < $y <= $z" は、"$y" が見た目単純なスカラだと仮定すると、 "$x < $y && $y <= $z" と正確に同じように振る舞います。 AND の短絡は "&&" と同様に行われ、一つが偽となった時点で一連の連鎖は停止します。

連鎖比較において、それぞれの引数式は、例え二つの比較の一部となったとしても、評価されるのは最大 1 回ですが、評価の結果はそれぞれの比較毎に取得されます。 (短絡によって比較が必要でない場合は、まったく評価されません。) これは、内側の引数の計算が高価だったり非決定的だったりする場合に問題になります。例えば:

    if($x < expensive_sub() <= $z) { ...

これは全体的に次のようなものではなく:

    if($x < expensive_sub() && expensive_sub() <= $z) { ...

しかし次のものに近いです:

    my $tmp = expensive_sub();
    if($x < $tmp && $tmp <= $z) { ...

ここでサブルーチンは 1 回だけ呼び出されます。しかし、正確に後者のコードのようなものでもありません; なぜなら連鎖比較は実際には(名前付きかどうかにかかわらず)一時変数を使わないからです; 代入はありません。これは、式が通常のサブルーチンとして呼び出されるときにはあまり違いはありませんが、左辺値サブルーチンの呼び出しの場合や、引数式が他の手段によって何らかの普通でない種類のスカラになった場合にはより問題になります。例えば、引数式が tie されたスカラになった場合、式はスカラを作るために最大 1 回評価されますが、スカラの値は、実際に使われる比較毎に 1 回、合計 2 回読み込まれます。

この例で、式は 1 回だけ評価され、tie されたスカラ (式の結果) は、これら使われる比較毎に取得されます。

    if ($x < $tied_scalar < $z) { ...

次の例では、式は 1 回だけ評価され、 tie されたスカラは式の中の演算の一部として 1 回だけ取得されます。この演算の結果は比較毎に取得されます; 通常これは、式の結果も演算子オーバーロードによってマジカルでない限り、関係ありません。

    if ($x < $tied_scalar + 42 < $z) { ...

一部の演算子は非結合です; 同じ優先順位の演算子の並びを使うと文法エラーになります。例えば、"$x .. $y .. $z" はエラーです。

Perl の演算子には、以下のような結合性と優先順位 (高い優先順位から低いものへ並べている) があります。 C から持ってきた演算子の優先順位は、C での優先順位が多少おかしくても、そのままにしてあります。 (これによって、C を使っている方が Perl に移りやすくなっています。) ごく僅かな例外を別として、全ての演算子はスカラ値のみを持ち、配列値を持ちません。

    左結合      項  リスト演算子 (左方向に対して)
    左結合      ->
    非結合      ++ --
    右結合      **
    右結合      ! ~ ~. \ 単項の+ 単項の-
    左結合      =~ !~
    左結合      * / % x
    左結合      + - .
    左結合      << >>
    非結合      名前付き単項演算子
    連鎖        < > <= >= lt gt le ge
    連鎖/なし   == != eq ne <=> cmp ~~
    非結合      isa
    左結合      & &.
    左結合      | |. ^ ^.
    左結合      &&
    左結合      || //
    非結合      .. ...
    右結合      ?:
    右結合      = += -= *= など; goto last next redo dump
    左結合      , =>
    非結合      リスト演算子 (右方向に対して)
    右結合      not
    左結合      and
    左結合      or xor

以下の章では、前述の表の順に、これらの演算子に関して詳述します。

多くの演算子はオブジェクトでオーバーロードできます。 overload を参照して下さい。

項とリスト演算子 (左方向)

「項」は Perl でもっとも優先順位が高いものです。これには、変数、クォートとクォート的な演算子、括弧で括った任意の式、引数を括弧で括った任意の関数が含まれます。実際には、この意味では本当の関数はなく、リスト演算子と関数のように働く単項演算子が、引数を括弧で括るためそのように見えます。これらはすべて perlfunc に記述しています。

リスト演算子 (print() など) や単項演算子 (chdir() など) は、すべて次のトークンとして開き括弧が続くと、その演算子と括弧内の引数は、通常の関数呼び出しのようにもっとも高い優先順位として扱われます。

括弧が無い場合には、print、sort、chmod のようなリスト演算子の優先順位は、演算子の左側をからすると非常に高く、右側からすると非常に低く見えます。たとえば、

    @ary = (1, 3, sort 4, 2);
    print @ary;         # prints 1324

では、sort の右のコンマは sort よりも前に評価されますが、左側のコンマは後から評価されます。言い方を変えると、リスト演算子は自分の後にある引数をすべて使って処理を行ない、その結果を自分の前の式に対する「項」であるかのように見せるということです。ただし、括弧には気を付けないといけません:

    # 以下は print を行なう前に exit を評価します:
    print($foo, exit);  # 明らかにやりたいことではないでしょう。
    print $foo, exit;   # これでもない。

    # 以下は exit を評価する前に print を行ないます:
    (print $foo), exit; # これがしたかった。
    print($foo), exit;  # これでもいい。
    print ($foo), exit; # これも OK。

また、

    print ($foo & 255) + 1, "\n";

の動作を一目見ただけで判断するのは、難しいでしょう。かっこは print のために評価される引数リストを囲っています ($foo & 255 の結果が表示されます)。それから print の返り値 (通常は 1) に 1 が加えられます。結果は以下のようになります:

    1 + 1, "\n";    # 明らかにやりたいことではないでしょう。

意味したいことを適切に行うには、以下のように書く必要があります:

    print(($foo & 255) + 1, "\n");

詳しくは、"Named Unary Operators" を参照してください。

この他に「項」として解析されるものには、do {} や eval {} の構成、サブルーティンやメソッドの呼び出し、無名のコンストラクタ [] と {} があります。

後の方の "Quote and Quote-like Operators" や "I/O Operators" も参照してください。

矢印演算子

C や C++ と同じように "->" は中置の被参照演算子です。右側が [...], {...}, (...) のいずれかの形の添字であれば、左側は配列、ハッシュ、サブルーチンへのハードリファレンスかシンボリックリファレンスでなければなりません。 (あるいは技術的には、配列またはハードリファレンスが代入可能であればハードリファレンスを保持できる場所です。) perlreftut と perlref を参照してください。

そうでなければ、右側はメソッド名かサブルーチンのリファレンスを持った単純スカラ変数で、左側はオブジェクト (bless されたリファレンス) かクラス名でなければなりません。 perlobj を参照してください。

(メソッド呼び出しの場合ではなく) デリファレンスの場合、 後置デリファレンス (postderef) 機能によっていくらか拡張されます。この機能の詳細については、"Postfix Dereference Syntax" in perlref を参照してください。

インクリメントとデクリメント

"++" と "--" は、C の場合と同じように動作します。つまり、変数の前に置かれれば、値を返す前に変数を 1 インクリメントまたはデクリメントし、後に置かれれば、値を返した後で変数をインクリメントまたはデクリメントします。

    $i = 0;  $j = 0;
    print $i++;  # prints 0
    print ++$j;  # prints 1

C と同様、Perl はいつ変数がインクリメントまたはデクリメントされるかは定義されません。値が返される前か後のどこかで行われる、ということだけがわかります。これは、同じ文である変数を 2 回修正すると、振る舞いが未定義になることを意味します。以下のような文は避けてください:

    $i = $i ++;
    print ++ $i + $i ++;

Perl は上記の文の結果について保障しません。

インクリメント演算子には、ちょっと風変わりな機能が組み込まれています。数値が入った変数や、数値の文脈で使われてきた変数をインクリメントする場合には、通常のインクリメントとして動作します。しかし、その変数が設定されてからずっと文字列の文脈でしか使われていなくて、空文字列でなく、 /^[a-zA-Z]*[0-9]*\z/ にマッチする値を持っているときには、個々の文字の範囲を保ちながら桁あげを行なって、文字列としてインクリメントが行なわれます (マジカルインクリメントと呼ばれます):

    print ++($foo = "99");      # prints "100"
    print ++($foo = "a0");      # prints "a1"
    print ++($foo = "Az");      # prints "Ba"
    print ++($foo = "zz");      # prints "aaa"

undef は常に数値として扱われ、特にインクリメントされる前には 0 に変換されます(従って、undef のポストインクリメント値は undef ではなく 0 になります)。

デクリメント演算子には、マジカルなものはありません。

指数演算子

二項演算子の "**" は指数演算子です。この演算子は、単項のマイナスよりも結合が強い演算子で、 -2**4 は (-2)**4 ではなく、-(2**4) と解釈されます。 (これは C の pow(3) を使って実装されていますので、内部的には double で動作します。)

一部の指数表現は明確に定義されていません: これは 0**0, 1**Inf, Inf**0 などです。これらの特殊な場合に関して特定の結果を想定しないでください; 結果はプラットフォーム依存です。

単項演算子

単項演算子の "!" は論理否定を行ないます; つまり「not」ということです。この演算子の優先順位を低くしたものとして、 not が用意されています。

単項演算子の "-" は被演算子が数値または数値に見える文字列であれば、算術否定を行ないます。被演算子が識別子ならば、マイナス記号にその識別子をつなげた文字列が返されます。これ以外で被演算子の最初の文字がプラスかマイナスのときには、その記号を逆のものに置き換えた文字列を返します。この規則の結果、-bareword が文字列 "-bareword" に等価となります。しかし、文字列が英字以外("+" と "-" を除く)で始まっていると、 Perl は文字列を数値に変換しようとし、それから算術否定が実行されます。もし文字列が明確に数値に変換できない場合、Perl は Argument "the string" isn't numeric in negation (-) at ... という警告を出します。

単項演算子の "~" はビットごとの否定を行ないます; つまり、1 の補数を返します。例えば、0666 & ~027 は 0640 です。 ("Integer Arithmetic" と "Bitwise String Operators" も参照して下さい。) 結果の幅はプラットホーム依存であることに注意してください: ~0 は 32 ビットプラットホームでは 32 ビット幅ですが、64 ビットプラットホームでは 64 ビット幅なので、特定のビット幅を仮定する場合は、余分なビットをマスクするために "&" 演算子を使うことを忘れないでください。

Perl 5.28 から、値が 255 を超える文字を含む文字列の補数を求めようとすると致命的エラーになります。

"bitwise" 機能が use feature 'bitwise' か use v5.28 で有効にされると、単項の "~" は常にその引数を数値として扱い、その代替形式である "~." はその引数を常に文字列として扱います。従って 32 ビットプラットフォームでは ~0 と ~"0" はどちらも 2**32-1 を意味しますが、~.0 と ~."0" はどちらも "\xff" になります。 Perl 5.28 まで、この機能は "experimental::bitwise" カテゴリの警告を発生させていました。

単項演算子の "+" は、たとえ文字列に対して用いられた場合にも、何もしません。関数名に続けて括弧付きの式を書く場合に、関数の引数リストと解釈されないようにするために用いることができます。 (下記 "Terms and List Operators (Leftward)" の例を参照してください。)

単項演算子の "\" はリファレンスを生成します。オペランドが一つの印付きのものの場合、それへのリファレンスを作ります。オペランドがかっこでくくられたリストの場合、リストで言及されているものへのリファレンスを作ります。さもなければオペランドをリストコンテキストとし、オペランドによって提供されたリストのスカラへのリファレンスのリストを作ります。 perlreftut と perlref を参照してください。この用法も文字列中のバックスラッシュも、後に続くものが展開されるのを防ぐことになりますが、動作を混同しないでください。

拘束演算子

二項演算子の "=~" は、スカラ式をパターンマッチに拘束します。デフォルトで $_ の文字列を検索したり、変更したりする演算があります。この演算子は、そのような演算を他の文字列に対して行なわせるようにするものです。右引数は、検索パターン、置換、文字変換のいずれかです。左引数は、デフォルトの $_ の代わりに検索、置換、文字変換の対象となるものです。スカラコンテキストで使うと、返り値は一般的に演算の結果が成功したか否かです。例外は、/r (非破壊) オプション付きの置換 (s///) と文字変換 (y///) です; この場合は変換した結果を返します。リストコンテキストでの振る舞いは演算子に依存します。詳しくは "Regexp Quote-Like Operators" を、これらの演算子を使った例については perlretut を参照して下さい。

右引数が検索パターン、置換、文字変換ではなく、式であれば、それは実行時に決まる検索パターンと解釈されます。これは、内容が 2 回展開されることを意味することに注意してください; つまり:

    '\\' =~ q'\\';

は正しくありません; 正規表現エンジンは最終的にパターン \ をコンパイルしようとして、これは文法エラーと考えるからです。

二項演算子の "!~" は、返される値が論理否定されることを除いて "=~" と同じです。

二項演算子の "!~" を非破壊置換 (s///r) や変換 (y///r) で使うと文法エラーとなります。

乗法演算子

二項演算子の "*" は 2 つの数値の積を返します。

二項演算子の "/" は 2 つの数値の商を返します。

二項演算子の "%" は剰余演算子で、一つ目の引数を二つ目の引数で割ったときの余りを返します。 $m と $n の二つの整数の被演算子を取ったとすると: $n が正の場合、$m % $n は、$m から $m 以下の最大の $n の倍数を引いた値です。 $n が負の場合、$m % $n は、$m から $m を下回らない最小の $n の倍数を引いた値です(従って結果はゼロ以下になります)。オペランド $m と $n が浮動小数点数で、$n の絶対値 (つまり abs($n)) が (UV_MAX + 1) より小さい場合、 $m と $n の整数部のみが操作で使われます (注意: ここで UV_MAX は符号なし整数の最大値を意味します)。右オペランドの絶対値 (abs($n)) が (UV_MAX + 1) 以上の場合、 "%" は、($r = $m - $i*$n) となる浮動小数点剰余 $r を計算します; ここで $i は、$r が右オペランド $n と同じ符号 (C の関数 fmod() のように左オペランド $m ではありません) で、絶対値が $n より小さいものになるような、ある整数です。 use integer がスコープ内にある場合、 "%" は C コンパイラで実装された剰余演算子を使います。この演算子は被演算子が負の場合の挙動が不確実ですが、より高速です。

二項演算子の "x" は繰り返し演算子です。スカラコンテキストまたは左辺値がかっこで囲まれたり qw// リストであったりしない場合は、文字列の繰り返しを実行します。この場合、左オペランドにスカラコンテキストを提供し、右オペランドによって指定された回数繰り返された左オペランド文字列からなる文字列を返します。 x がリストコンテキストで、左オペランドがかっこでくくられているか qw// リストの場合、リスト繰り返しを実行します。この場合、これは左オペランドへリストコンテキストを提供し、右オペランドによって指定された回数繰り返された左オペランドのリストからなるリストを返します。右オペランドが 0 か負数の場合(負数の場合は警告が出ます)、コンテキストによって空文字列か空リストを返します。

    print '-' x 80;             # print row of dashes

    print "\t" x ($tab/8), ' ' x ($tab%8);      # tab over

    @ones = (1) x 80;           # a list of 80 1's
    @ones = (5) x @ones;        # set all elements to 5

加法演算子

二項演算子の "+" は 2 つの数値の和を返します。

二項演算子の "-" は 2 つの数値の差を返します。

二項演算子の "." は 2 つの文字列を連結します。

シフト演算子

二項演算子の "<<" は左引数の値を、右引数で示すビット数だけ、左にシフトした値を返します。引数は整数でなければなりません。 ("Integer Arithmetic" も参照して下さい。)

二項演算子の ">>" は左引数の値を、右引数で示すビット数だけ、右にシフトした値を返します。引数は整数でなければなりません。 ("Integer Arithmetic" も参照して下さい。)

use integer ("Integer Arithmetic" を参照してください)が有効な場合、 C の符号付き整数が使われ(算術シフト)、そうでない場合は(例え負のシフトでも) C の符号なし整数が使われます(論理シフト)。算術右シフトでは符号ビットは左側に複製され、論理シフトでは 0 ビットが左側から来ます。

どちらの場合も、この実装は Perl がビルドされた整数型のサイズ(32 ビットか 64 ビット)よりも大きい結果を生成することはありません。

負数のビットシフトは逆シフトを意味します: 左シフトは右シフトに鳴り、右シフトは左シフトになります。これは、負のシフトが未定義である C とは異なります。

整数のサイズ以上のビット数のシフトは、ほとんどの場合 0 (全てのビットが落ちる) になります; 例外として、use integer の基で、負の値を超過シフトすると -1 になります。これは、多すぎるビット数のシフトは未定義である C とは異なります。一般的な C の振る舞いは「ワードビット数を法としてシフトする」なので、例えば次のようになります

    1 >> 64 == 1 >> (64 % 64) == 1 >> 0 == 1  # Common C behavior.

しかしこれは完全に偶然です。

プラットフォームのネイティブな整数の影響に疲れたなら、use bigint プラグマは問題を完全にうまく回避します:

    print 20 << 20;  # 20971520
    print 20 << 40;  # 5120 on 32-bit machines,
                     # 21990232555520 on 64-bit machines
    use bigint;
    print 20 << 100; # 25353012004564588029934064107520

名前付き単項演算子

さまざまな名前付き単項演算子が、引数を 1 つ持ち、括弧が省略可能な、関数として扱われます。

リスト演算子 (print() など) や単項演算子 (chdir() など) は、すべて次のトークンとして開き括弧が続くと、その演算子と括弧内の引数は、通常の関数呼び出しのようにもっとも高い優先順位として扱われます。たとえば、名前つき単項演算子は || より優先順位が高いので、以下のようになります:

    chdir $foo    || die;       # (chdir $foo) || die
    chdir($foo)   || die;       # (chdir $foo) || die
    chdir ($foo)  || die;       # (chdir $foo) || die
    chdir +($foo) || die;       # (chdir $foo) || die

しかし "*" は名前つき演算子より優先順位が高いので、以下のようになります:

    chdir $foo * 20;    # chdir ($foo * 20)
    chdir($foo) * 20;   # (chdir $foo) * 20
    chdir ($foo) * 20;  # (chdir $foo) * 20
    chdir +($foo) * 20; # chdir ($foo * 20)

    rand 10 * 20;       # rand (10 * 20)
    rand(10) * 20;      # (rand 10) * 20
    rand (10) * 20;     # (rand 10) * 20
    rand +(10) * 20;    # rand (10 * 20)

優先順位に関して、-f や -M のようなファイルテスト演算子は、名前付き単項演算子として扱われますが、この関数のかっこルールは適用されません。これは、例えば -f($file).".bak" は -f "$file.bak" と等価であることを意味します。

"Terms and List Operators (Leftward)" も参照して下さい。

比較演算子

真か偽の値を返す Perl 演算子は一般的に安全に数値として使える値を返します。例えば、この節の関係演算子と次の節の等価演算子は、真および、 "0 but true" と同様、ゼロとカウントされるけれども不適切な数値変換に関する警告の出ない、定義された空文字列 "" の特別版に対して 1 を返します。

二項演算子の "<" は左引数が数値的に右引数よりも小さければ、真を返します。

二項演算子の ">" は左引数が数値的に右引数よりも大きければ、真を返します。

二項演算子の "<=" は左引数が数値的に右引数よりも小さいか等しければ、真を返します。

二項演算子の ">=" は左引数が数値的に右引数よりも大きいか等しければ、真を返します。

二項演算子の "lt" は左引数が文字列的に右引数よりも小さければ、真を返します。

二項演算子の "gt" は左引数が文字列的に右引数よりも大きければ、真を返します。

二項演算子の "le" は左引数が文字列的に右引数よりも小さいか等しければ、真を返します。

二項演算子の "ge" は左引数が文字列的に右引数よりも大きいか等しければ、真を返します。

"$x < $y <= $z" のような比較演算子の並びは、 "Operator Precedence and Associativity" 節で述べたような形で連鎖比較を実行します。より低い優先順位を持つ等価演算子とは連鎖しないことに注意してください。

等価演算子

二項演算子の "==" は左引数が数値的に右引数と等しければ、真を返します。

二項演算子の "!=" は左引数が数値的に右引数と等しくなければ、真を返します。

二項演算子の "eq" は左引数が文字列的に右引数と等しければ、真を返します。

二項演算子の "ne" は左引数が文字列的に右引数と等しくなければ、真を返します。

"$x == $y == $z" のような上述の等価演算子の並びは、 "Operator Precedence and Associativity" 節で述べたような形で連鎖比較を実行します。より高い優先順位を持つ比較演算子とは連鎖しないことに注意してください。

二項演算子の "<=>" は左引数が数値的に右引数より小さいか、等しいか、大きいかに従って、-1, 0, 1 を返します。数値として NaN (非数) に対応しているプラットフォームでは、それに対して "<=>" を使うと undef を返します。 NaN はどの値に対しても(NaN に対してでさえも) "<", "==", ">", "<=", ">=" のいずれも成立しないので、これらは全て偽となります。 NaN != NaN は真を返しますが、 NaN != その他のどの値でも です。 NaN に対応していないプラットフォームでは、NaN は単に数としての値 0 を持つ文字列です。

    $ perl -le '$x = "NaN"; print "No NaN support here" if $x == $x'
    $ perl -le '$x = "NaN"; print "NaN support here" if $x != $x'

(bigint, bigrat, bignum プラグマは全て "NaN" に対応していることに注意してください。)

二項演算子の "cmp" は左引数が文字列的に右引数より小さいか、等しいか、大きいかに従って、-1, 0, 1 を返します。

二項演算子の "~~" はその引数に対してスマートマッチングを行います。スマートマッチングについては次の節で述べられています。

両面順序演算子 "<=>", "cmp" および、スマートマッチング演算子 "~~" は、互いに、および同じ優先順位の演算子に対しては非結合です。

"lt", "le", "ge", "gt", "cmp" は照合を含む use locale 型式が有効な場合は、現在の LC_COLLATE ロケールで指定された照合(ソート)順が使われます。 perllocale を参照して下さい。これらを Unicode と混ぜないでください; 伝統的な 8 ビットロケールコーディングでのみ使ってください。標準の Unicode::Collate と Unicode::Collate::Locale モジュールは、照合問題に関する遥かに強力な解決法を提供します。

大文字小文字を無視した比較に関しては、Perl v5.16 以降で利用可能な "fc" in perlfunc 大文字小文字畳み込み関数を参照してください:

    if ( fc($x) eq fc($y) ) { ... }

クラスインスタンス演算子

二項演算子の isa は、左側の引数が右側の引数で与えられたクラス(またはこのクラスから派生した下位クラス)のオブジェクトインスタンスである場合に真と評価されます。左側の引数が、未定義、bless されたオブジェクトインスタンスではない、右側の引数で与えられたクラスから派生していない、のいずれかの場合、この演算子は偽として評価されます。右側の引数は、裸の単語か、クラス名の文字列となるスカラ式を与えます:

    if( $obj isa Some::Class ) { ... }

    if( $obj isa "Different::Class" ) { ... }
    if( $obj isa $name_of_class ) { ... }

これは Perl 5.31.6 からの実験的な機能で、use feature 'isa' によって有効化されると利用可能になります。これは experimental::isa カテゴリの警告を出力します。

スマートマッチング演算子

Perl 5.10.1 で最初に現れた (5.10.0 版は異なった振る舞いでした)、2 項 ~~ は引数に対する「スマートマッチング」を行います。これはほとんど perlsyn で記述されている when 構文で暗黙に使われますが、 when 節だけがスマートマッチング演算子を呼び出すわけではありません。全ての Perl の演算子の中で唯一、スマートマッチング演算子は再帰できます。スマートマッチング演算子は実験的で、その振る舞いは変更されることがあります。

また、その他全ての Perl 演算子はそのオペランドにコンテキスト(通常は文字列または数値コンテキスト)を割り当てて、オペランドを割り当てたコンテキストに自動変換します。一方、スマートマッチングはそのオペランドの実際の型からコンテキストを推論して、適切な比較機構を選択するためにその型情報を使います。

~~ 演算子はオペランドを「多態的に」比較します; どのように比較するかの決定は、実際の型 (数値、文字列、配列、ハッシュなど) に基づきます。同じ優先順位を共有する等価演算子のように、 ~~ は真では 1 を、偽では "" を返します。これはしばしば "in", "inside of", "is contained in" と呼ぶのが最良です; なぜなら左オペランドはしばしば右オペランドの内側を探すからです。これにより、スマートマッチングオペランドへのオペランドの順序はしばしば正規表現演算子のものと逆になります。言い換えると、「より小さい」ものが普通は左オペランドに置かれ、より大きいものが右側に置かれます。

スマートマッチングの振る舞いは、次の表で決定されるように、引数がどんな型かに依存します。型が適用される表の最初の行は、スマートマッチングの振る舞いを決定します。実際に何が起こるかはほとんどの場合 2 番目のオペランドの型で決定されるので、表は左ではなく右オペランドでソートされています。

 左        右         説明と擬似コード
 ===============================================================
 Any       undef      Any が未定義かどうか調べる
                like: !defined Any

 Any       Object     Object に対する ~~ オーバーロードを起動するか die

 右被演算子が 配列:

 左        右         説明と擬似コード
 ===============================================================
 ARRAY1    ARRAY2     ARRAY1 と ARRAY2 の組の要素に対して再帰 [2]
                like: (ARRAY1[0] ~~ ARRAY2[0])
                        && (ARRAY1[1] ~~ ARRAY2[1]) && ...
 HASH      ARRAY      いずれかの ARRAY 要素が HASH キーに存在するか
                like: grep { exists HASH->{$_} } ARRAY
 Regexp    ARRAY      いずれかの ARRAY 要素が Regexp でマッチングするか
                like: grep { /Regexp/ } ARRAY
 undef     ARRAY      ARRAY 内の undef
                like: grep { !defined } ARRAY
 Any       ARRAY      それぞれの ARRAY 要素に対してスマートマッチング [3]
                like: grep { Any ~~ $_ } ARRAY

 右被演算子がハッシュ:

 左        右         説明と擬似コード
 ===============================================================
 HASH1     HASH2      HASH1 と HASH2 両方が全て同じキー
                like: keys HASH1 ==
                         grep { exists HASH2->{$_} } keys HASH1
 ARRAY     HASH       いずれかの ARRAY 要素が HASH キーに存在するか
                like: grep { exists HASH->{$_} } ARRAY
 Regexp    HASH       いずれかの HASH キーが Regexp でマッチングするか
                like: grep { /Regexp/ } keys HASH
 undef     HASH       常に偽 (undef はキーになれない)
                like: 0 == 1
 Any       HASH       HASH キーが存在するか
                like: exists HASH->{Any}

 右被演算子がコードリファレンス:

 左        右         説明と擬似コード
 ===============================================================
 ARRAY     CODE       全ての ARRAY 要素に対してサブルーチンが真を返す [1]
                like: !grep { !CODE->($_) } ARRAY
 HASH      CODE       全ての HASH キーに対してサブルーチンが真を返す [1]
                like: !grep { !CODE->($_) } keys HASH
 Any       CODE       サブルーチンに Any を渡して真を返す
                like: CODE->(Any)

右被演算子が正規表現:

 左        右         説明と擬似コード
 ===============================================================
 ARRAY     Regexp     いずれかの ARRAY 要素が Regexp にマッチングするか
                like: grep { /Regexp/ } ARRAY
 HASH      Regexp     いずれかの HASH キーが Regexp にマッチングするか
                like: grep { /Regexp/ } keys HASH
 Any       Regexp     パターンマッチング
                like: Any =~ /Regexp/

 その他:

 左        右         説明と擬似コード
 ===============================================================
 Object    Any        Object に対して ~~ のオーバーロードを起動、
                      あるいは次にフォールバック…

 Any       Num        数値の等価性
                 like: Any == Num
 Num       nummy[4]    数値の等価性
                 like: Num == nummy
 undef     Any        未定義かどうかを調べる
                 like: !defined(Any)
 Any       Any        文字列の等価性
                 like: Any eq Any

注意:

1. 空ハッシュや配列はマッチングします。
2. つまり、それぞれの要素は他の配列の同じインデックスの要素とスマートマッチングします。[3]
3. 循環参照が見つかると、参照の等価性にフォールバックします。
4. 実際の数値か、数値に見える文字列のどちらかです。

スマートマッチングは bless されていないハッシュや配列のリファレンスを暗黙にデリファレンスするので、それらの場合では HASH と ARRAY のエントリが適用されます。 bless されたリファレンスでは、Object エントリが適用されます。ハッシュに関連するスマートマッチングはキーのみを考慮し、ハッシュの値は考慮しません。

"like" コードエントリは常に正確な処理を行うわけではありません。例えば、スマートマッチング演算子は可能なら短絡しますが、grep はしません。また、スカラコンテキストでは grep はマッチングした数を返しますが、 ~~ は真か偽かのみを返します。

ほとんどの演算子と異なり、スマートマッチング演算子は undef を特別に扱う方法を知っています:

    use v5.10.1;
    @array = (1, 2, 3, undef, 4, 5);
    say "some elements undefined" if undef ~~ @array;

それぞれのオペランドは修正されたスカラコンテキストと考えられます; 修正というのは、配列とハッシュの変数は演算子にリファレンスが渡され、暗黙にデリファレンスされます。それぞれの組のどちらの要素も同じです:

    use v5.10.1;

    my %hash = (red    => 1, blue   => 2, green  => 3,
                orange => 4, yellow => 5, purple => 6,
                black  => 7, grey   => 8, white  => 9);

    my @array = qw(red blue green);

    say "some array elements in hash keys" if  @array ~~  %hash;
    say "some array elements in hash keys" if \@array ~~ \%hash;

    say "red in array" if "red" ~~  @array;
    say "red in array" if "red" ~~ \@array;

    say "some keys end in e" if /e$/ ~~  %hash;
    say "some keys end in e" if /e$/ ~~ \%hash;

二つの配列は、最初の配列のそれぞれの要素が、二つ目の配列の対応する要素に (つまり "in") 再帰的にスマートマッチングするときに、スマートマッチングします。

    use v5.10.1;
    my @little = qw(red blue green);
    my @bigger = ("red", "blue", [ "orange", "green" ] );
    if (@little ~~ @bigger) {  # true!
        say "little is contained in bigger";
    }

スマートマッチング演算子はネストした配列を再帰するので、これは "red" が配列にいると報告するままです。

    use v5.10.1;
    my @array = qw(red blue green);
    my $nested_array = [[[[[[[ @array ]]]]]]];
    say "red in array" if "red" ~~ $nested_array;

二つの配列が互いにスマートマッチングすると、次の例が報告しているように、互いの値のディープコピーになります:

    use v5.12.0;
    my @a = (0, 1, 2, [3, [4, 5], 6], 7);
    my @b = (0, 1, 2, [3, [4, 5], 6], 7);

    if (@a ~~ @b && @b ~~ @a) {
        say "a and b are deep copies of each other";
    }
    elsif (@a ~~ @b) {
        say "a smartmatches in b";
    }
    elsif (@b ~~ @a) {
        say "b smartmatches in a";
    }
    else {
        say "a and b don't smartmatch each other at all";
    }

$b[3] = 4 に設定すると、"a and b are deep copies of each other" と報告されるのではなく、"b smartmatches in a" と報告されます。これは、@a の対応する位置には(最終的に)中に 4 がある配列を含んでいるからです。

あるハッシュを他のものとスマートマッチングすると、両方に同じキーが含まれているかどうかを報告し、それ以上でもそれ以下でもありません。これは、値を気にせずに、二つのレコードが同じフィールド名を持っているかどうかを見るのに使えるかもしれません。例えば:

    use v5.10.1;
    sub make_dogtag {
        state $REQUIRED_FIELDS = { name=>1, rank=>1, serial_num=>1 };

        my ($class, $init_fields) = @_;

        die "Must supply (only) name, rank, and serial number"
            unless $init_fields ~~ $REQUIRED_FIELDS;

        ...
    }

しかし、これは $init_fields が確かにハッシュリファレンスである場合にのみ考えている通りに動作します。 $init_fields ~~ $REQUIRED_FIELDS という条件は、文字列 "name", "rank", "serial_num" および、 "name", "rank", "serial_num" のいずれかを含むような配列リファレンスでも成立します。

スマートマッチング演算子は when 節の暗黙の演算子としてもっともよく使われます。 perlsyn の "Switch Statements" の節を参照してください。

オブジェクトのスマートマッチング

オブジェクトの基となる表現に依存することを避けるために、スマートマッチングの右オペランドが ~~ をオーバーロードしないオブジェクトなら、例外 "Smartmatching a non-overloaded object breaks encapsulation" が発生します。これは、何かがオブジェクトに「含まれている」かどうかを知るために調べる筋合いではないからです。次のものは ~~ のオーバーロードがなければ全て不正です:

    %hash ~~ $object
       42 ~~ $object
   "fred" ~~ $object

しかし、~~ 演算子をオーバーロードすることにオブジェクトがスマートマッチングする方法を変更できます。これにより通常のスマートマッチングの意味論を拡張できます。 ~~ のオーバーロードを持つオブジェクトについては、overload を参照してください。

左オペランドにオブジェクトを使うことは許されていますが、あまり有用ではありません。スマートマッチングの規則はオーバーロードより優先順位が高いので、例え左オペランドのオブジェクトがスマートマッチングのオーバーロードを持っていても、無視されます。左オペランドがオーバーロードされていないオブジェクトなら、ref 演算子が返したものに従って、文字または数値比較にフォールバックします。これは、

    $object ~~ X

は X を引数としてオーバーロードメソッドを起動 しない ということです。通常通り前述の表を見て X の型に依存するのではなく、オーバーロードは起動されるかもしれませんし、されないかもしれません。単純な文字列や数値については、"in" は以下と等価になります:

    $object ~~ $number          ref($object) == $number
    $object ~~ $string          ref($object) eq $string

例えば、これは "handle smells IOish" と報告します (しかし実際にこれをしないでください!):

    use IO::Handle;
    my $fh = IO::Handle->new();
    if ($fh ~~ /\bIO\b/) {
        say "handle smells IOish";
    }

これは、$fh を "IO::Handle=GLOB(0x8039e0)" のような文字列として扱い、それからパターンはこれに対してマッチングするからです。

ビットごとの AND

二項演算子の "&" は、両オペランドのビットごとに論理積をとって、その結果を返します。数値 ("Integer Arithmetic") 参照) でもビット文字列 ("Bitwise String Operators" 参照) でもないオペランドに対してこの演算を実行した場合、現在のところ警告は出ませんが、結果は未定義です。

"&" は関係演算子より優先順位が低いので、例えば以下のようなテストでは、かっこが重要です:

    print "Even\n" if ($x & 1) == 0;

use feature 'bitwise' か use v5.28 によって "bitwise" 機能が有効になっている場合、この演算子はオペランドを常に数値として扱います。 Perl 5.28 より前ではこの機能は "experimental::bitwise" カテゴリの警告が出力されていました。

ビットごとの OR と XOR

二項演算子の "|" は、両オペランドのビットごとに論理和をとって、その結果を返します。

二項演算子の "^" は、両オペランドのビットごとに排他論理和をとって、その結果を返します。

数値 ("Integer Arithmetic") 参照) でもビット文字列 ("Bitwise String Operators" 参照) でもないオペランドに対してこれらの演算を実行した場合、現在のところ警告は出ませんが、結果は未定義です。

"|" と "^" は関係演算子より優先順位が低いので、例えば以下のようなテストでは、かっこが重要です:

    print "false\n" if (8 | 2) != 10;

C スタイルの論理積

二項演算子の "&&" は、短絡の論理積演算を行ないます。つまり、左被演算子が偽であれば、右被演算子は評価さえ行なわれないということです。評価される場合には、スカラーかリストかというコンテキストは、右被演算子にも及びます。

C スタイルの論理和

二項演算子の "||" は、短絡の論理和演算を行ないます。つまり、左被演算子が真であれば、右被演算子は評価さえ行なわれないということです。評価される場合には、スカラーかリストかというコンテキストは、右被演算子にも及びます。

論理定義性和

C では直接等価なものはありませんが、Perl の // 演算子は C スタイル論理和に関連しています。実際、左辺の真偽ではなく定義されているかを判定することを除けば || と同じです。従って EXPR1 // EXPR2 は、EXPR1 が定義されていればその値を返し、さもなければ、EXPR2 の値を返します。 (EXPR1 はスカラコンテキストで、EXPR2 は // 自身のコンテキストで評価されます。) 普通はこれは defined(EXPR1) ? EXPR1 : EXPR2 と同じ結果になり完全に等価です (例外は 3 項演算子形式は左辺値として使えますが、 EXPR1 // EXPR2 は使えません)。これは、変数に対するデフォルト値を設定するのにとても有用です。実際に、$x と $y の少なくとも片方が定義されているかを判定したいなら、 defined($x // $y) を使ってください。

||, //, && 演算子は、(C のように単に 0 や 1 を返すのではなく) 最後に評価された値を返します。これにより、かなり一般的に使えるホームディレクトリを探す方法は:

    $home =  $ENV{HOME}
          // $ENV{LOGDIR}
          // (getpwuid($<))[7]
          // die "You're homeless!\n";

特に、これは代入のために二つの集合を選択するためには使うべきではないことを意味します。

    @a = @b || @c;            # This doesn't do the right thing
    @a = scalar(@b) || @c;    # because it really means this.
    @a = @b ? @b : @c;        # This works fine, though.

Perl では、フロー制御に使う場合の && と || の同義語として、 and 演算子と or 演算子が用意されています (下記参照)。短絡の動作は全く同じです。しかし、"and" と "or" の優先順位はかなり低くしてあるので、引数に括弧を使っていないリスト演算子のあとに続けて使う場合にも、安心して使うことができます:

    unlink "alpha", "beta", "gamma"
            or gripe(), next LINE;

C スタイルの演算子では以下のように書く必要があります。

    unlink("alpha", "beta", "gamma")
            || (gripe(), next LINE);

次のようにして書き込みをより読みやすくすることもできます:

    unless(unlink("alpha", "beta", "gamma")) {
        gripe();
        next LINE;
    }

代入で "or" を使うと、したいことと違うことになります; 以下を参照して下さい。

範囲演算子

二項演算子の ".." は範囲演算子で、使われるコンテキストによって異なる動作をする 2 つの演算子を合わせたものです。リストコンテキストでは、左の値から右の値まで (1 づつ昇順で) 数えあげた値からなるリストを返します。左側の値が右側の値より大きい場合は、空リストを返します。範囲演算子は、foreach (1..10) のようなループを書くときや、配列のスライス演算を行なうときに便利です。現状の実装では、foreach ループの式の中で範囲演算子を使っても一時配列は作りませんが、古い Perl は以下のようなことを書くと、大量のメモリを消費することになります:

    for (1 .. 1_000_000) {
        # code
    }

範囲演算子は、マジカル自動インクリメントを使うことで文字列でも動作します; 以下を参照してください。

スカラコンテキストで使われたときには、".." は真偽値を返します。この演算子は、フリップフロップのように 2 値安定で、 sed や awk や多くのエディタでの行範囲 (コンマ) 演算子をエミュレートするものとなります。各々の ".." 演算子は、例えそれを含むサブルーチンの呼び出しをまたいでも、それぞれに独立して自分の真偽状態を管理します。はじめは、左被演算子が偽である間、演算全体も偽となっています。いったん左被演算子が真になると、範囲演算子は、右被演算子が真である間、真を返すようになります; 範囲演算子が再び偽になった後です。次に範囲演算子が評価されるまでは、偽とはなりません。 (awk でのように) 真となった、その評価の中で右被演算子をテストし、偽とすることができますが、1 度は真を返すことになります。 sed でのように、次に評価されるまで右被演算子をテストしたくなければ、 2 個のドットの代わりに 3 つのドット ("...") を使ってください。その他の点では、"..." は ".." と同様に振舞います．

右被演算子は、演算子の状態が「偽」である間は評価されることがなく、左被演算子は、演算子の状態が「真」である間は評価されることがありません。優先順位は、|| と && の少し下です。偽としては空文字列が返され、真としては (1 から始まる) 通し番号が返されます。この通し番号は、新たに範囲が始まるごとにリセットされます。範囲の最後の通し番号には、文字列 "E0" が末尾につけられます; これは、数値としては何の影響もありませんが、範囲の終わりで何か特別なことをしたい場合に、目印として使うことができます。範囲の始まりを除きたい場合には、通し番号が 1 よりも大きくなるのを待てばよいでしょう。

スカラの ".." の被演算子が定数表現であるときは、その被演算子は暗黙に、現在の入力行番号(変数 $.) と等しい(==) 場合に真となります。

とても細かい話をすると、比較は実際には int(EXPR) == int(EXPR) ですが、これは浮動小数点数を使うときにだけ問題になります; 前の段落で記述したように明示的に $. を使ったとき、比較は int(EXPR) == int($.) となり、 $. に浮動小数点数がセットされ、ファイルから読み込みを行わない場合にのみ問題になります。さらに、"span" .. "spat" や 2.18 .. 3.14 は、それぞれのオペランドが整数表現を使って評価されるため、スカラコンテキストでは望みどおりの結果になりません。

例:

スカラ演算子として:

    if (101 .. 200) { print; } # print 2nd hundred lines, short for
                               #  if ($. == 101 .. $. == 200) { print; }

    next LINE if (1 .. /^$/);  # skip header lines, short for
                               #   next LINE if ($. == 1 .. /^$/);
                               # (typically in a loop labeled LINE)

    s/^/> / if (/^$/ .. eof());  # quote body

    # parse mail messages
    while (<>) {
        $in_header =   1  .. /^$/;
        $in_body   = /^$/ .. eof;
        if ($in_header) {
            # do something
        } else { # in body
            # do something else
        }
    } continue {
        close ARGV if eof;             # reset $. each file
    }

以下は二つの範囲演算子の違いを示す単純な例です:

    @lines = ("   - Foo",
              "01 - Bar",
              "1  - Baz",
              "   - Quux");

    foreach (@lines) {
        if (/0/ .. /1/) {
            print "$_\n";
        }
    }

このプログラムは "Bar" を含む行だけを表示します。範囲演算子を ... に変更すると、"Baz" の行も表示します。

これはリスト演算子の例です:

    for (101 .. 200) { print }      # $_ を 100 回出力
    @foo = @foo[0 .. $#foo];        # 高価な no-op
    @foo = @foo[$#foo-4 .. $#foo];  # 末尾の 5 アイテムをスライス

それぞれのオペランドは整数の形で評価されるので、2.18 .. 3.14 はリストコンテキストでは二つの要素を返します。

    @list = (2.18 .. 3.14); # @list = (2 .. 3); と同じ

リストコンテキストでの範囲演算子は、両方のオペランドが文字列であるときには、次の規則に従って、マジカルインクリメントの機能が使えます。

一つの例外(後述)を除いて、両側の文字列が Perl にとって数値に見える場合、マジカルインクリメントは適用されず、代わりにその文字列は数値として (より正確には、整数として)扱われます。

例えば、"-2".."2" は -2..2 と同じで、 "2.18".."3.14" は 2, 3 を生成します。
前述の規則の例外として、左側の文字列が 0 で始まっていて 2 文字以上の場合、 "01" のような文字列は通常 Perl にとって数値に見えるにも関わらず、この場合はマジカルインクリメントは 適用されます 。

例えば、"01".."04" は "01", "02", "03", "04" を生成し、 "00".."-1" は "00" から "99" を生成します - これは驚きがあるかもしれませんが、なぜこれがこのように動作するのかについては次の規則を見てください。先頭に 0 があるものから日付を取り出すために、次のようにできます:
```
    @z2 = ("01" .. "31");
    print $z2[$mday];
```
文字列が数値として解釈することを強制したいなら、次のようにできます:
```
    @numbers = ( 0+$first .. 0+$last );
```
注意: Perl バージョン 5.30 以下では、左側が "0" で始まる 任意の 文字列 (文字列 "0" 自体を含む)は、マジカル文字列インクリメントを引き起こします。つまり、これらの Perl バージョンでは、"0".."-1" は "0" から "99" までを生成しますが、これは空のリストを生成する 0..-1 と矛盾していました。また、"0"."9" では、文字列のリストではなく整数のリストが生成されるということです。
指定された初期値がマジカルインクリメント処理の一部でない場合 (つまり、/^[a-zA-Z]*[0-9]*\z/ にマッチングする、空でない文字列の場合)、初期値のみが返されます。

例えば、"ax".."az" は "ax", "ay", "az" を生成しますが、 "*x".."az" は "*x" だけを生成します。
マジカルインクリメントの規則に従う文字列がもう片方の初期値の場合、対応する並びが返されます。

例えば以下のように書くと:
```
    @alphabet = ("A" .. "Z");
```
英語の大文字すべてを得られますし:
```
    $hexdigit = (0 .. 9, "a" .. "f")[$num & 15];
```
と書けば、16 進の数字が得られます。
マジカルインクリメントによって得られる値の中に指定した最終値にちょうど一致するものが見つからないような場合には、マジカルインクリメントによって得られる次の値の文字列長が、最終値として指定した値のものより長くなるまでインクリメントが続けられます。最終値の文字列の長さが最初のものより短い場合、空リストが返されます。

例えば、"a".."--" は "a".."zz" と同じで、 "0".."xx" は "0" から "99" を出力し、 "aaa".."--" は空リストを返します。

Perl 5.26 から、文字列に対するリストコンテキスト範囲演算子は、 "use feature 'unicode_strings" のスコープの中で想定通りに動作するようになりました。以前のバージョン、およびこの機能のスコープの外側では、これは "The "Unicode Bug"" in perlunicode を起こしていました: その振る舞いは範囲の両端の内部エンコーディングに依存していました。

マジカルインクリメントは /^[a-zA-Z]*[0-9]*\z/ にマッチングする空でない文字列でのみ動作するので、以下はαのみを返します:

    use charnames "greek";
    my @greek_small =  ("\N{alpha}" .. "\N{omega}");

両方のシグマを含む、25 文字の伝統的な小文字のギリシャ文字を得るためには、代わりに以下のようにしてください:

    use charnames "greek";
    my @greek_small =  map { chr } ( ord("\N{alpha}")
                                        ..
                                     ord("\N{omega}")
                                   );

しかし、小文字のギリシャ文字はここに書いたものよりも たくさん あるので、正規表現で小文字のギリシャ文字にマッチングさせるためには、 /(?:(?=\p{Greek})\p{Lower})+/ というパターン (または実験的機能である /(?[ \p{Greek} & \p{Lower} ])+/) を使います。

条件演算子

三項演算子の "?:" は、C の場合と同じ条件演算子です。これは、if-then-else のように働きます。 "?" の前の引数が真であれば ":" の前の引数が返されますが、真でなければ、":" の後の引数が返されます。例えば:

    printf "I have %d dog%s.\n", $n,
            ($n == 1) ? "" : "s";

スカラコンテキストかリストコンテキストかという状況は、選択された 2 番目もしくは 3 番目の引数にまで伝わります。

    $x = $ok ? $y : $z;  # スカラを取る
    @x = $ok ? @y : @z;  # 配列を取る
    $x = $ok ? @y : @z;  # うわ、これは単なる数です!

2 番目と 3 番目の引数双方が左辺値 (代入可能ということ)であれば、この演算子に代入を行なうこともできます:

    ($x_or_y ? $x : $y) = $z;

この演算子は代入可能な結果を生み出すので、括弧なしで代入を行うとおかしくなるかもしれません。例えばこれは:

    $x % 2 ? $x += 10 : $x += 2

以下を意味し:

    (($x % 2) ? ($x += 10) : $x) += 2

以下のようにはなりません:

    ($x % 2) ? ($x += 10) : ($x += 2)

恐らく以下のようにもっと単純に書くべきでしょう:

    $x += ($x % 2) ? 10 : 2;

代入演算子

"=" は通常の代入演算子です。

代入演算子は C の場合と同様の働きをします。つまり、

    $x += 2;

は以下と等価です:

    $x = $x + 2;

しかし、tie() のようなもので起こる左辺値の被参照による副作用が 2 回起こることはありません。他の代入演算も同様に働きます。以下のものが認識されます:

    **=    +=    *=    &=    &.=    <<=    &&=
           -=    /=    |=    |.=    >>=    ||=
           .=    %=    ^=    ^.=           //=
                 x=

グループ分けしてありますが、これらはいずれも代入演算子として同じ優先順位となっています。これらの複合代入演算子はスカラとしてのみ動作しますが、一方通常の代入演算子は配列、スカラ、リスト、リファレンスに代入できます。 ("Context", "List value constructors" in perldata, "Assigning to References" in perlref を参照してください。)

C と違って、スカラ代入演算子は有効な左辺値を作り出します。代入を修正することは、代入を行なってから、その代入された変数を修正するのと同じことになります。これは、以下のように何かのコピーを変更したいときに便利です:

    ($tmp = $global) =~ tr/13579/24680/;

しかし 5.14 現在、これは次のようにしてもできるようになりました:

    use v5.14;
    $tmp = ($global =~  tr/13579/24680/r);

同様に、

    ($x += 2) *= 3;

は以下と等価です:

    $x += 2;
    $x *= 3;

同様に、リストコンテキストでのリストへの代入は代入可能な左辺値のリストとなり、スカラコンテキストでのリストへの代入は代入の右側の式で作成された要素の数を返します。

三つのドット付きビット単位代入演算子 (&.= |.= ^.=) は Perl 5.22 からの新しいものです。 "Bitwise String Operators" を参照してください。

コンマ演算子

二項演算子の "," はコンマ演算子です。スカラコンテキストではその左引数を評価し、その値を捨てて、それから右引数を評価し、その値を返します。これはちょうど、C のコンマ演算子と同じです。

リストコンテキストでは、これは単にリスト引数の区切り文字で、双方の引数をそのリストに挿入する働きがあります。これらの引数も左から右に評価されます。

=> 演算子(時々「ファットコンマ」と発音されます)はコンマ演算子の同義語ですが、もし左側の単語が文字か下線で始まっていて、かつ文字、数字、下線でのみ構成されている場合、これを文字列として扱うという効果もあります。これには他の場所では演算子、定数、v-文字列、関数呼び出しとして扱われるオペランドを含みます。この振る舞いについて迷うことがあるなら、左オペランドを明示的にクォートすることも出来ます。

さもなければ、=> 演算子はコンテキストによって、カンマ演算子かリスト引数の区切り文字と全く同様に振る舞います。

例えば:

    use constant FOO => "something";

    my %h = ( FOO => 23 );

は、以下と等価です:

    my %h = ("FOO", 23);

これは 違います:

    my %h = ("something", 23);

=> 演算子は、ハッシュのキーと値や、その他のリスト中の組となる要素の関係を表現するのに便利です。

    %hash = ( $key => $value );
    login( $username => $password );

特殊なクォートの振る舞いは優先順位を無視し、従って左オペランドの一部に適用されることがあります:

    print time.shift => "bbb";

この例は "1314363215shiftbbb" のようなものを表示します; なぜなら => は暗黙にすぐ左にある shift をクォートし、 time.shift 全体が左オペランドであるという事実を無視するからです。

リスト演算子 (右方向)

リスト演算子の右側のものにとって、カンマはとても低い優先順位になります; これによってコンマで区切った式をリスト演算子の引数として置くことができます。これよりも優先順位が低いものは、論理演算子の "and", "or", "not" のみで、括弧を付けないリスト演算子の呼び出しを評価するために使えます:

    open HANDLE, "< :encoding(UTF-8)", "filename"
        or die "Can't open: $!\n";

しかし、かっこ付きで書くよりもコードが読みにくいという人もいます:

    open(HANDLE, "< :encoding(UTF-8)", "filename")
        or die "Can't open: $!\n";

この場合、より慣習的な "||" 演算子も使えます:

    open(HANDLE, "< :encoding(UTF-8)", "filename")
        || die "Can't open: $!\n";

"Terms and List Operators (Leftward)" のリスト演算子の議論も参照して下さい。

論理否定

単項演算子の "not" は右側に来る式の否定を返します。これは、優先順位がずっと低いことを除いては "!" と等価です。

論理積

二項演算子の "and" は両側の式の論理積を返します。これは、優先順位がずっと低いことを除けば && と等価です。つまり、これも短絡演算を行ない、右側の式は左側の式が「真」であった場合にのみ評価されます。

論理和と排他論理和

二項演算子の "or" は両側の式の論理和を返します。これは、優先順位がずっと低いことを除いて || と等価です。これはフローを制御するのに有用です:

    print FH $data              or die "Can't write to FH: $!";

つまり、これも短絡演算を行ない、右側の式は左側の式が「偽」であった場合にのみ評価されます。優先度の関係で、これを || 演算子の置き換えに使うのは慎重に避けなければなりません。これは普通代入よりも、フローの制御でうまく動作します:

    $x = $y or $z;              # バグ: これは間違い
    ($x = $y) or $z;            # 本当にしたいこと
    $x = $y || $z;              # こう書いた方がいい

しかし、代入がリストコンテキストの時に || をフロー制御に使おうとする場合、代入により大きな優先順位を持たせるために "or" が必要かもしれません。

    @info = stat($file) || die;     # うわ、stat がスカラの意味だ!
    @info = stat($file) or die;     # よりよい; @info はその目的を果たす

もちろん、常に括弧をつけてもよいです。

二項演算子の "xor" は両側の式の排他論理和を返します。これは (もちろん) 短絡できません。

定義性論理和の低優先順位版はありません。

Perl にない C の演算子

C にあって Perl に無いものは以下の通りです:

unary &: アドレス演算子。 (しかし "\" 演算子がリファレンスのために用いられます。)
unary *: 被アドレス参照演算子。 (Perl の被参照プリフィクス演算子が型づけを行ないます: $, @, %, &。)
(TYPE): 型のキャスト演算子。

クォートとクォート風の演算子

クォートはリテラル値であると考えるのが普通ですが、Perl において、クォートは演算子として働き、さまざまな展開やパターンマッチの機能を持っています。そのような動作をさせるのに、Perl は慣習的にクォート文字を使っていますが、どの種類のクォートも、自分でクォート文字を選べるようになっています。以下の表では、{} がその選んだ区切文字のペアを示しています。

     通常記法  汎用記法        意味             展開
    =================================================
        ''       q{}         リテラル               不可
        ""      qq{}         リテラル               可
        ``      qx{}         コマンド               可 *
                qw{}         単語リスト              不可
        //       m{}      パターンマッチ       可 *
                qr{}         パターン               可 *
                 s{}{}         置換               可 *
                tr{}{}         変換               不可 (但し以下を参照のこと)
                 y{}{}         変換               不可 (但し以下を参照のこと)
        <<EOF            ヒアドキュメント       可 *

        * '' がデリミタでない場合のみ

選んだ区切文字が括弧の類でない場合には、前後の文字として同一のものを使いますが、4 つの ASCII のかっこ ((), <>, [], {}) の場合にはネストできます; つまり、以下のものは、

    q{foo{bar}baz}

以下と同じです。

    'foo{bar}baz'

しかし、以下のコードはクォートされた Perl コードではいつも正しく動くわけではないことに注意してください:

    $s = q{ if($x eq "}") ... }; # WRONG

これは文法エラーとなります。 Text::Balanced モジュール(Perl 5.8 からは標準配布、それ以前は CPAN にあります)はこれを適切に行います。

演算子とクォート文字の間に空白を置くことも出来ます (そして場合によっては必須です); ただし、# をクォート文字として使う場合は例外です。 q#foo# は文字列 foo としてパースされますが、 q #foo# は q 演算子の後にコメントがあるとみなされます。この引数は次の行から取られます。つまり、以下のように書けます:

    s {foo}  # foo を
      {bar}  # bar で置き換える

空白が使われなければならないのは、クォート文字が単語文字 (つまり /\w/ にマッチングする)の場合です:

    q XfooX # Works: means the string 'foo'
    qXfooX  # WRONG!

以下のエスケープシーケンスが、区切り文字がシングルクォート ("'") でない展開と文字変換の構文で利用可能です。中かっこつきのもの全ては、中かっこの中で隣接している任意の数の空白やタブが許されます(そして無視されます)。

    シーケンス   注意  説明
    \t                  タブ              (HT, TAB)
    \n                  改行              (NL)
    \r                  復帰              (CR)
    \f                  改ページ          (FF)
    \b                  バックスペース    (BS)
    \a                  アラーム          (BEL)
    \e                  エスケープ        (ESC)
    \x{263a}     [1,8]  16 進文字         (例: SMILEY)
    \x{ 263A }          同様、しかし中かっこの内側に隣接している
                        オプションの空白を示している
    \x1b         [2,8]  範囲制限された 16 進数で表した文字  (例: ESC)
    \N{name}     [3]    名前つき Unicode 文字または文字シーケンス
    \N{U+263D}   [4,8]  Unicode 文字      (例: FIRST QUARTER MOON)
    \c[          [5]    制御文字          (例: chr(27))
    \o{23072}    [6,8]  8 進文字          (例: SMILEY)
    \033         [7,8]  範囲制限された 8 進文字  (例: ESC)

変数置換構文の中の中かっこを使ったエスケープシーケンスは、前述の 2 番目の \x{ } の例で図示したように、中かっこの内側隣接の位置にオプションの空白(タブまたはスペース文字)を置くことができます。

[1]

結果は中かっこで囲まれた 16 進数で指定された文字です。その文字に関する詳細については以下の "[8]" を参照してください。

空白 (タブまたはスペース文字) は、片方または両方の中かっこから数字を分離します。

さもなければ、中かっこの中には 16 進数字のみが妥当です。不正な文字に遭遇すると、警告が発生し、中かっこの内側の不正な文字とそれ以降の文字(妥当でも不正でも)は捨てられます。

中かっこの中に妥当な文字がなければ、生成される文字は NULL 文字 (\x{00}) です。しかし、明示的な空の中かっこ (\x{}) は(今のところ)警告を出しません。

[2]

結果は 0x00 から 0xFF の範囲の 16 進数で指定された文字です。その文字に関する詳細については以下の "[8]" を参照してください。

\x に引き続くのは 16 進数字のみが妥当です。 \x に引き続く妥当な数字が 2 桁ない場合、妥当な数字はゼロでパッディングされます。これは、\x7 は \x07 と解釈され、単独の "\x" は \x00 と解釈されるということです。文字列の末尾を例外として、妥当な数字が 2 桁ない場合は警告が発生します。警告は不正な文字が無視されると言うにも関わらず、エスケープの一部のみが無視され、文字列中の引き続く文字は使われるままであることに注意してください。例えば:

  Original    Result    Warns?
  "\x7"       "\x07"    no
  "\x"        "\x00"    no
  "\x7q"      "\x07q"   yes
  "\xq"       "\x00q"   yes

[3]

結果は name で指定される Unicode 文字または文字の並びです。 charnames を参照してください。

[4]

\N{U+hexadecimal number} は、Unicode 符号位置が hexadecimal number の Unicode 文字を意味します。

[5]

\c に引き続く文字は以下の表に示すように他の文字にマッピングされます:

 Sequence   Value
   \c@      chr(0)
   \cA      chr(1)
   \ca      chr(1)
   \cB      chr(2)
   \cb      chr(2)
   ...
   \cZ      chr(26)
   \cz      chr(26)
   \c[      chr(27)
                     # See below for chr(28)
   \c]      chr(29)
   \c^      chr(30)
   \c_      chr(31)
   \c?      chr(127) # (on ASCII platforms; see below for link to
                     #  EBCDIC discussion)

言い換えると、符号位置を 64 で xor して大文字にした文字です。 ord("?") ^ 64 は 127 なので \c? は ASCII プラットフォームでは DELETE で、"@" は 64 のために 64 で xor すると 0 になるので \c@ は NUL です。

また、\c\X は任意の X について chr(28) . "X" となりますが、文字列の末尾には来ません; 逆スラッシュは末尾のクォートをエスケープするようにパースされるからです。

ASCII プラットフォームでは、上述の一覧からの結果の文字は ASCII 制御文字の完全な集合です。これは EBCDIC プラットフォームには当てはまりません; これに関する ASCII プラットフォームと EBCDIC プラットフォームとの違いの完全な議論については "OPERATOR DIFFERENCES" in perlebcdic を参照してください。

"c" に引き続いて上述した以外の文字を使うことは非推奨であり、 as of Perl v5.20, the only characters actually allowed are the printable ASCII ones, minus the left brace "{". 許されている他の文字を置いたときに起こることは、値が第 7 ビット; つまり 64 で xor を取ったものになり、有効の場合は警告が発生します。許されていない文字を使うと致命的エラーが発生します。

プラットフォーム非依存の制御文字を得るには、\N{...} を使ってください。

[6]

結果は中かっこで囲まれた 8 進数で指定された文字です。その文字に関する詳細については以下の "[8]" を参照してください。

空白 (タブまたはスペース文字) は、片方または両方の中かっこから数字を分離します。

さもなければ、8 進数でない文字に遭遇すると、警告が発生し、値はそこまでの 8 進数字を基として、それ以降閉じ中かっこまでの全ての文字を捨てます。 8 進数字がまったくないと致命的エラーになります。

[7]

結果は範囲 000 から 777 までの 3 桁の 8 進数で指定される文字です (しかし 077 より上は使わないのが最良です; 次の段落を参照してください)。その文字に関する詳細については以下の "[8]" を参照してください。

一部のコンテキストでは 2 桁や、1 桁ですら許されますが、正確に 3 桁かつ先頭が 0、以外の使い方は意図していない結果をもたらすかもしれません。 (例えば、正規表現中では後方参照で混乱するかもしれません; "Octal escapes" in perlrebackslash を参照してください。) Perl 5.14 から、代わりに \o{} を使えます; これはこれらすべての問題を避けられます。さもなければ、この構文を値 \077 以下でのみ使用するのが最良です; 3 桁にするために左側にゼロをパッディングするのを忘れないでください。より大きな値では、\o{} を使うか、代わりに 16 進数にして \N{U+} (これは異なった文字集合のプラットフォーム間で移植性があります) を使うか、または \x{} を使うような、他のものに変換してください。

[8]

上述のいくつかの構造は文字を数値で指定しています。この値は文字集合エンコーディングで (0 から始めた) 文字の位置を指定します。これは同意語として序数(ordinal)、コード位置(code position)、符号位置(code point)と呼ばれます。 Perl は現在のところ、それぞれ 256 文字を定義している ASCII/Latin1 または EBCDIC のどちらかのネイティブエンコーディングを持つプラットフォームで動作します。一般的に、数値が 255 (0xFF, 0377) 以下なら、Perl はこれをプラットフォームのネイティブエンコーディングと解釈します。数値が 256 (0x100, 0400) 以上なら、Perl はこれを Unicode 符号位置と解釈し、結果は対応する Unicode 文字となります。例えば \x{50} と \o{120} はどちらも 10 進数では 80 で、これは 256 より小さいので、数値はネイティブ文字集合エンコーディングとして解釈されます。 ASCII では (0 から始めて) 80 番目の位置の文字は "P" で、EBCDIC ではアンパサンド記号 "&" です。 \x{100} と \o{400} はどちらも 10 進数では 256 なので、数値はネイティブエンコーディングが何かに関わらず Unicode 符号位置として解釈されます。 Unicode での (0 から始めて) 256 番目の位置の文字の名前は LATIN CAPITAL LETTER A WITH MACRON です。

上述の規則の例外として、\N{U+16 進数} は常に Unicode 符号位置として解釈されるので、\N{U+0050} は EBCDIC プラットフォームでも "P" です。

注意: C やその他の言語と違って、Perl は垂直タブ (VT - ASCII と EBCDIC の両方で 11) のための \v エスケープシーケンスはありませんが、\N{VT}, \ck, \N{U+0b}, \x0b が使えます。 (\v は Perl の正規表現パターンでは意味があります; perlre を参照してください。)

以下のエスケープシーケンスが展開と文字変換の構文で利用可能です。

    \l          次の文字だけを小文字にする
    \u          次の文字だけをタイトル文字(大文字ではありません!)にする
    \L          \E か文字列の末尾まで小文字にする
    \U          \E か文字列の末尾まで大文字にする
    \F          \E か文字列の末尾まで畳み込み文字にする
    \Q          \E か文字列の末尾までパターンメタ文字をクォート(無効化)する
    \E          大文字小文字変換かクォート部分(どちらか最後に現れたもの)を
                終了させる

\Q でクォートされる文字の正確な定義については "quotemeta" in perlfunc を参照してください。

\L, \U, \F, \Q はスタックできます; この場合それぞれに対して \E が必要です。例えば:

 say"This \Qquoting \ubusiness \Uhere isn't quite\E done yet,\E is it?";
 This quoting\ Business\ HERE\ ISN\'T\ QUITE\ done\ yet\, is it?

LC_CTYPE を含む use locale 型式が有効の場合(perllocale を参照して下さい)、\l, \L, \u, \U で使われる大文字小文字テーブルは現在のロケールのものが使われます。 (例えば、\N{} や、0x100 以上の符号位置の) Unicode が使われている場合、\l, \L, \u, \U で使われる大文字小文字テーブルは Unicode で定義されているものになります。これは、単一の文字の大文字小文字マッピングは複数の文字の並びを生成することがあるということです。 use locale の基では、\F は、Unicode の定義が使われる UTF-8 以外の全てのロケールにおいて、\L と同じ結果を生成します。

全てのシステムでは "newline" と呼ばれる行端末子を表現するために仮想的な "\n" が用いられます。普遍の、物理的な "newline" 文字と言うものはありません。オペレーティングシステム、デバイスドライバ、C ライブラリ、Perl が全て協力して保存しようとすると言うのは単なる幻想です。全てのシステムで "\r" を ASCII CR として、また "\n" を ASCII LF として読み込むわけではありません。例えば昔の Mac (MacOS X 以前)ではこれらは保存され、行端末子のないシステムでは、"\n" を print しても実際のデータは何も出力しません。一般に、システムで "newline" を意味したいときには "\n" を使いますが、正確な文字が必要な場合はリテラルな ASCII を使います。例えば、ほとんどのネットワークプロトコルでは行端末子として CR+LF ("\015\012" または "\cM\cJ") を予想し、また好みますが、しばしば "\012" だけでも許容し、さらに時々は "\015" だけでも認めます。もしネットワーク関係で "\n" を使う習慣がついていると、いつか痛い目を見ることになるでしょう。

展開が行なわれる構文では、"$" や "@" で始まる変数が展開されます。 $a[3] や $href->{key}[0] のような添え字付き変数もまた配列やハッシュのスライスのように展開されます。しかし、$obj->meth のようなメソッド呼び出しは展開されません。

配列やスライスの展開は、要素を順番に、$" の値で分割して展開されるので、 join $", @array の展開と等価です。 @* のような「句読点」配列は普通は名前が @{*} のように中かっこで囲われている場合にのみ展開されますが、配列 @_, @+, @- は中かっこなしでも展開されます。

ダブルクォートされた文字列では、\Q からのクォートは文字変換とエスケープが処理された後に適用されます。

    "abc\Qfoo\tbar$s\Exyz"

は以下と等価です:

    "abc" . quotemeta("foo\tbar$s") . "xyz"

正規表現演算子 (qr//, m//, s///) のパターンでは、\Q によるクォートは変数展開が行われた後、エスケープが処理される前に適用されます。これによりパターンを ($ と @ 以外は) リテラルにマッチングできます。例えば、以下はマッチングします:

    '\s\t' =~ /\Q\s\t/

$ や @ は変換を引き起こすので、リテラルにマッチングさせるためには m/\Quser\E\@\Qhost/ などという風に書く必要があります。

パターンはさらに、正規表現として展開が行なわれます。これは、変数が展開された後の 2 回目のパスで行なわれるので、変数に正規表現を含めておき、パターンの中へ展開することができます。もし、そうしたくないのであれば、\Q を使うと変数の内容を文字通りに展開することができます。

上記の振る舞いを除けば、Perl は複数の段階を踏んで展開を行ないません。特に、シェルのプログラマの期待とは裏腹に、バッククォートはダブルクォートの中では展開されませんし、シングルクォートがダブルクォートの中で使われても、変数の展開を妨げることは ありません。

正規表現のクォート風の演算子

以下はパターンマッチングと関連する行動に関するクォート風の演算子です。

qr/STRING/msixpodualn

この演算子は STRING を正規表現としてクォートします (そして可能ならコンパイルします)。 STRING は m/PATTERN/ 内の PATTERN と同様に文字変換されます。 "'" がデリミタとして使用された場合、変数展開は行われません。対応する /STRING/msixpodualn 表現の代わりに使われた Perl の値を返します。返り値は元のパターンを正規化したものです。これは不思議なことに、同じ文字を含む文字列とは異なります: ref(qr/x/) は "Regexp" を返します; しかし、これのデリファレンスは定義されていません (現在の所元のパターンの正規化版を返しますが、これは変更されるかもしれません)。

例えば:

    $rex = qr/my.STRING/is;
    print $rex;                 # prints (?si-xm:my.STRING)
    s/$rex/foo/;

は以下と等価です:

    s/my.STRING/foo/is;

結果はマッチのサブパターンとして使えます:

    $re = qr/$pattern/;
    $string =~ /foo${re}bar/;   # 他のパターンに展開できる
    $string =~ $re;             # または単独で使う
    $string =~ /$re/;           # またはこのようにする

Perl は qr() 演算子を実行する瞬間にパターンをコンパイルするので、 qr() を使うことでいくつかの場面で速度的に有利になります; 特に qr() の結果が独立して使われる場合に有利になります。

    sub match {
        my $patterns = shift;
        my @compiled = map qr/$_/i, @$patterns;
        grep {
            my $success = 0;
            foreach my $pat (@compiled) {
                $success = 1, last if /$pat/;
            }
            $success;
        } @_;
    }

qr() の時点でパターンを内部表現にプリコンパイルすることにより、 /$pat/ を試みる毎に毎回パターンを再コンパイルするのを避けることができます。 (Perl はその他にも多くの内部最適化を行いますが、上の例で qr() 演算子を使わなかった場合はどの最適化も行われません。)

(以下の修飾子で指定される)オプションは以下の通りです:

    m   文字列を複数行として扱う。
    s   文字列を一行として扱う。 (. が 改行にマッチングするようにする)
    i   パターンマッチにおいて大文字小文字を区別しない。
    x   拡張正規表現を使う; x を二つ指定すると、
        \t と SPACE 文字は大かっこ文字クラスの中では無視されます。
    p   マッチング時にマッチングした文字列を保存するので、
        ${^PREMATCH}, ${^MATCH}, ${^POSTMATCH} が定義される。
        (v5.20 から無視される) このリリースから常に定義される
    o   一度だけコンパイルする。
    a   ASCII 制限: \d, \s, \w, [[:posix:]] 文字クラスに ASCII を使う;
        a を二つ指定すると、/i で ASCII 文字が非 ASCII 文字に
        マッチングしないようなさらなる制限を追加する
    l   現在の実行時ロケールの規則を使う。
    u   Unicode の規則を使う
    d   5.12 以降かどうかで、Unicode かネイティブな文字集合を使う
    n   非捕捉モード。() で $1, $2 などを埋めない

プリコンパイルされたパターンがより大きいパターンに組み込まれている場合、 "msixpluadn" の効果は適切に伝播します。 /o 修飾子の効果は伝播せず、明示的に使われたパターンに制限されます。

(Perl 5.14 で追加された) /a, /d, /l, /u 修飾子は、文字集合の規則を制御しますが、明示的に指定したいと思いそうなものは /a だけでしょう; その他の三つはさまざまなプラグマによって自動的に選択されます。

STRING として有効な文法に関する追加の情報と、正規表現の意味論に関する詳細については、perlre を参照してください。特に、かなり古いものである /o 以外の全ての修飾子については "Modifiers" in perlre でさらに説明されています。 /o は次の節に記述されています。

m/PATTERN/msixpodualngc

/PATTERN/msixpodualngc

パターンマッチで文字列検索を行ない、スカラコンテキストでは成功したときは真、失敗したときは偽を返します。 =~ 演算子か !~ 演算子で検索対象の文字列を示さなかったときには、 $_ の文字列が検索対象となります。 (=~ で指定される文字列は、左辺値である必要はありません-- 式を評価した結果でもかまいませんが、=~ の優先順位がいくぶん高いことに注意してください。) perlre も参照してください。

オプションは上述した qr// に記述されています; さらに、以下のマッチング処理修飾子が利用可能です:

 g  グローバルにマッチング、つまり、すべてを探し出す。
 c  /g が有効なとき、マッチングに失敗しても検索位置をリセットしない。

区切文字が "/" のときには、最初の m は付けても付けなくてもかまいません。 m を付けるときには、(ASCII の)空白でもない、任意の文字のペアを区切文字として使うことができます。これは特に、"/" を含むパス名にパターンマッチングを行なうときに、 LTS (傾斜楊枝症候群) を避けるために便利でしょう。 "?" がデリミタなら、後述する m?PATTERN? にある「一度だけマッチング」ルールが適用されます。 "'" (シングルクォート) がデリミタの場合、PATTERN に対する変数展開は行われません。識別子として有効な区切り文字を使う場合、m の後に空白が必要です。

PATTERN には、変数が含まれていてもよく、パターンが評価されるごとに、 (デリミタがシングルクォートでない限り)変数は展開され (パターンが再コンパイルされ) ます。 (変数 $(, $), $| は文字列の終わりを調べるパターンであると解釈されるので、展開されません。) Perl は展開された変数の値が変更されない限りパターンを再コンパイルしません。デリミタに引き続いて /o ("once" を意味します) を追加することで、テストを飛ばして再コンパイルしないようにすることができます。昔々、Perl は不必要に正規表現を再コンパイルしていたので、速度に関心がある場合は再コンパイルしないようにするためにこの修飾子は有用でした。しかし今では、/o を使う理由は以下のいずれかだけです:

変数が数千文字の長さで、これが変更されないことが分かっており、これに対するテストを飛ばすことであともう少しだけ速度を稼ぐ必要がある。 (こうすることには保守上のペナルティがあります; なぜなら /o と言及することでパターン内の変数を変更しないことを約束したことになるからです。変更しても、Perl は気づきもしません。)
変数が変更されようが変更されまいが、変数の初期値を使ったパターンがほしい。 (しかしこれを達成するための、/o を使うよりもまともな方法があります。)
以下のようにパターンに組み込みコードが含まれている場合
```
    use re 'eval';
    $code = 'foo(?{ $x })';
    /$code/
```
$x の現在の値を毎回確認するために、例えパターン文字列が変更されていなくても、毎回再コンパイルされます。これを避けたい場合は /o を使ってください。

結論としては、/o を使うことがいい考えであることはほとんどありません。

空パターン //

PATTERN を評価した結果が空文字列となった場合には、最後にマッチに 成功した 正規表現が、代わりに使われます。この場合、空パターンに対して g の c フラグだけが有効です; その他のフラグは元のパターンから取られます。以前に成功したマッチングがない場合、これは(暗黙に)真の空パターンとして動作します(つまり常にマッチングします)。

Perl が // (空正規表現) と // (定義性和演算子) を混同する可能性があることに注意してください。 Perl は普通これをかなりうまく処理しますが、$x/// (($x) / (//) それとも $x // /?) や print $fh // (print $fh(// それとも print($fh //?) のような病的な状況ではこれが起こりえます。これらの例の全てでは、Perl は定義性和を意味していると仮定します。もし空正規表現を意味したいなら、あいまいさをなくすために単にかっこや空白を使うか、空正規表現に接頭辞 m を付けてください (つまり // を m// にします)。

リストコンテキストでのマッチング

/g オプションが使われなかった場合、リストコンテキストでのm//はパターンの中の括弧で括られた部分列にマッチしたもので構成されるリストを返します; これは、($1, $2, $3, ...) ということです (この場合、$1 なども設定されます)。パターンに括弧がない場合は、返り値は成功時はリスト (1) です。括弧のあるなしに関わらず、失敗時は空リストを返します。

例:

 open(TTY, "+</dev/tty")
    || die "can't access /dev/tty: $!";

 <TTY> =~ /^y/i && foo();       # do foo if desired

 if (/Version: *([0-9.]*)/) { $version = $1; }

 next if m#^/usr/spool/uucp#;

 # poor man's grep
 $arg = shift;
 while (<>) {
    print if /$arg/o; # compile only once (no longer needed!)
 }

 if (($F1, $F2, $Etc) = ($foo =~ /^(\S+)\s+(\S+)\s*(.*)/))

最後の例は、$foo を最初の 2 つの単語と行の残りに分解し、 $F1 と $F2 と $Etc に代入しています。変数に代入されれば、すなわちパターンがマッチすれば、 if の条件が真となります。

/g 修飾子は、グローバルなパターンマッチを指定するもので、文字列の中で可能な限りたくさんマッチを行ないます。この動作は、コンテキストに依存します。リストコンテキストでは、正規表現内の括弧付けされたものにマッチした部分文字列のリストが返されます。括弧がなければ、パターン全体を括弧で括っていたかのように、すべてのマッチした文字列のリストが返されます。

スカラコンテキストでは、m//g を実行する毎に次のマッチを探します; マッチした場合は真を返し、もうマッチしなくなったら偽を返します。最後のマッチの位置は pos() 関数で読み出しや設定ができます; "pos" in perlfunc を参照して下さい。マッチに失敗すると通常は検索位置を文字列の先頭にリセットしますが、 /c 修飾子をつける(例えば m//gc)ことでこれを防ぐことができます。ターゲットとなる文字列が変更された場合も検索位置はリセットされます。

\G アサート

m//g マッチを m/\G.../g と混ぜることもできます; \G は前回の m//g があればその同じ位置でマッチするゼロ文字幅のアサートです。 /g 修飾子なしの場合、\G アサートは操作の最初としてpos() に固定しますが、("pos" in perlfunc 参照) マッチはもちろん一度だけ試されます。以前に /g マッチを適用していないターゲット文字列に対して /g なしで \G を使うと、文字列の先頭にマッチする \A アサートを使うのと同じことになります。 \G は現在のところ、パターンのまさに先頭を示す場合にのみ正しく対応することにも注意してください。

例:

    # list context
    ($one,$five,$fifteen) = (`uptime` =~ /(\d+\.\d+)/g);

    # scalar context
    local $/ = "";
    while ($paragraph = <>) {
        while ($paragraph =~ /\p{Ll}['")]*[.!?]+['")]*\s/g) {
            $sentences++;
        }
    }
    say $sentences;

以下は段落内の文をチェックするためのもう一つの方法です:

 my $sentence_rx = qr{
    (?: (?<= ^ ) | (?<= \s ) )  # 文字列の先頭か空白の後
    \p{Lu}                      # 大文字
    .*?                         # なんでも
    (?<= \S )                   # 空白以外で終わる
    (?<! \b [DMS]r  )           # しかし一般的な省略形ではない
    (?<! \b Mrs )
    (?<! \b Sra )
    (?<! \b St  )
    [.?!]                       # 引き続いて文を終わらせるものが
    (?= $ | \s )                # 文字列の末尾か空白の前に
 }sx;
 local $/ = "";
 while (my $paragraph = <>) {
    say "NEW PARAGRAPH";
    my $count = 0;
    while ($paragraph =~ /($sentence_rx)/g) {
        printf "\tgot sentence %d: <%s>\n", ++$count, $1;
    }
 }

以下は m//gc を \G で使う方法です:

    $_ = "ppooqppqq";
    while ($i++ < 2) {
        print "1: '";
        print $1 while /(o)/gc; print "', pos=", pos, "\n";
        print "2: '";
        print $1 if /\G(q)/gc;  print "', pos=", pos, "\n";
        print "3: '";
        print $1 while /(p)/gc; print "', pos=", pos, "\n";
    }
    print "Final: '$1', pos=",pos,"\n" if /\G(.)/;

最後のものは以下のものを表示するはずです:

    1: 'oo', pos=4
    2: 'q', pos=5
    3: 'pp', pos=7
    1: '', pos=7
    2: 'q', pos=8
    3: '', pos=8
    Final: 'q', pos=8

\G なしでのマッチが行われたため、最後のマッチでは p ではなく q がマッチすることに注意してください。また、最後のマッチは pos を更新しないことに注意してください。 pos は /g マッチでのみ更新されます。もし最後のマッチで p にマッチした場合、かなりの確率でとても古い (5.6.0 以前の) Perl で実行しているはずです。

lex 風にスキャンするために便利な指定は /\G.../gc です。文字列を部分ごとに処理するためにいくつかの正規表現をつなげて、どの正規表現にマッチングしたかによって異なる処理をすることができます。それぞれの正規表現は前の正規表現が飛ばした部分に対してマッチングを試みます。

 $_ = <<'EOL';
    $url = URI::URL->new( "http://example.com/" );
    die if $url eq "xXx";
 EOL

 LOOP: {
     print(" digits"),       redo LOOP if /\G\d+\b[,.;]?\s*/gc;
     print(" lowercase"),    redo LOOP
                                    if /\G\p{Ll}+\b[,.;]?\s*/gc;
     print(" UPPERCASE"),    redo LOOP
                                    if /\G\p{Lu}+\b[,.;]?\s*/gc;
     print(" Capitalized"),  redo LOOP
                              if /\G\p{Lu}\p{Ll}+\b[,.;]?\s*/gc;
     print(" MiXeD"),        redo LOOP if /\G\pL+\b[,.;]?\s*/gc;
     print(" alphanumeric"), redo LOOP
                            if /\G[\p{Alpha}\pN]+\b[,.;]?\s*/gc;
     print(" line-noise"),   redo LOOP if /\G\W+/gc;
     print ". That's all!\n";
 }

出力は以下のようになります(何行かに分割しています):

 line-noise lowercase line-noise UPPERCASE line-noise UPPERCASE
 line-noise lowercase line-noise lowercase line-noise lowercase
 lowercase line-noise lowercase lowercase line-noise lowercase
 lowercase line-noise MiXeD line-noise. That's all!

m?PATTERN?msixpodualngc

これは、reset() 演算子を呼び出すごとに 1 度だけしかマッチングしないことを除いては m/PATTERN/ による検索と全く同じです。たとえば、ファイルの集まりの中で個々のファイルについて、あるものを探すとき、最初の 1 つだけの存在がわかれば良いのであれば、この機能を使って最適化をはかることができます。現在のパッケージにローカルとなっている m?? のパターンだけがリセットされます。

    while (<>) {
        if (m?^$?) {
                            # blank line between header and body
        }
    } continue {
        reset if eof;       # clear m?? status for next file
    }

次の例は、pod ファイル中の最初の "latin1" エンコーディングを "utf8" に切り替えます:

    s//utf8/ if m? ^ =encoding \h+ \K latin1 ?x;

一度だけマッチングという振る舞いはマッチングデリミタが ? かどうかで制御されます: その他のデリミタの場合はこれは通常の m// 演算子です。

過去には、m?PATTERN? の先頭の m は省略可能でしたが、これを省略すると廃止予定警告が出ていました。 v5.22.0 から、これを省略すると文法エラーが発生します。もし古いコードでこの構文に遭遇した場合は、単に m を追加してください。

s/PATTERN/REPLACEMENT/msixpodualngcer

文字列中でパターンを検索し、もし見つかれば、置換テキストで置き換え、置換した数を返します。見つからなければ、偽 (空文字列 ("") と数値のゼロ (0 の両方) を返します。

/r (非破壊) オプションが使われると、文字列のコピーに対して置換が行われ、置換された数ではなく、置換が行われたかどうかにかかわらずこのコピーが返されます。 /r が使われた場合、元の文字列は決して変更されません。コピーは、たとえ入力がオブジェクトや tie された変数でも、常にプレーンな文字列です。

=~ 演算子や !~ 演算子によって文字列が指定されていなければ、変数 $_ が検索され、修正されます。 /r が指定されていない限り、 =~ で指定される文字列は、スカラ変数、配列要素、ハッシュ要素、あるいは、これらへの代入式といったある種のスカラ左辺値でなければなりません。

シングルクォートを区切り文字として使った場合には、 PATTERN にも REPLACEMENT にも変数展開を行ないません。それ以外の場合、文字列の最後を表わすものには見えない $ が PATTERN に含まれると、実行時に変数がパターン内に展開されます。最初に変数が展開されるときにだけパターンのコンパイルを行ないたいときには、 /o オプションを使ってください。パターンの評価結果が空文字列になった場合には、最後に成功した正規表現が代わりに使われます。これについてさらに詳しくは、perlre を参照してください。

オプションは、m// のものに加えて、以下の置換固有のものがあります:

    e   式の右側の評価を行なう。
    ee  右側を文字列として評価して、その結果を評価する。
    r   置換した結果を返し、もとの文字列はそのままにする。

空白ではない任意の区切り文字で、スラッシュを置き換えられます。識別子として許されている文字を使うときには s の後に空白を追加してください。先に述べたように、シングルクォートを使うと置換文字列での展開はされません (/e修飾子を使えば可能です)。バッククォートを通常のデリミタとして扱うことに注意してください; 置換テキストはコマンドとして評価されません。 PATTERN を括弧類で括った場合には、REPLACEMENT 用にもう一組の区切り文字を用意します; これは、括弧類であっても、なくてもかまいません; s(foo)(bar) や s<foo>/bar/。 /e は置換文字列を完全な Perl の式として扱い、その場所で直ちに解釈します。しかし、これはコンパイル時に構文チェックされます。二番目の e 修飾子を指定すると、置換部分がまず Perl の式として eval されます。

例:

    s/\bgreen\b/mauve/g;              # don't change wintergreen

    $path =~ s|/usr/bin|/usr/local/bin|;

    s/Login: $foo/Login: $bar/; # run-time pattern

    ($foo = $bar) =~ s/this/that/;      # copy first, then
                                        # change
    ($foo = "$bar") =~ s/this/that/;    # convert to string,
                                        # copy, then change
    $foo = $bar =~ s/this/that/r;       # Same as above using /r
    $foo = $bar =~ s/this/that/r
                =~ s/that/the other/r;  # Chained substitutes
                                        # using /r
    @foo = map { s/this/that/r } @bar   # /r is very useful in
                                        # maps

    $count = ($paragraph =~ s/Mister\b/Mr./g);  # get change-cnt

    $_ = 'abc123xyz';
    s/\d+/$&*2/e;               # yields 'abc246xyz'
    s/\d+/sprintf("%5d",$&)/e;  # yields 'abc  246xyz'
    s/\w/$& x 2/eg;             # yields 'aabbcc  224466xxyyzz'

    s/%(.)/$percent{$1}/g;      # change percent escapes; no /e
    s/%(.)/$percent{$1} || $&/ge;       # expr now, so /e
    s/^=(\w+)/pod($1)/ge;       # use function call

    $_ = 'abc123xyz';
    $x = s/abc/def/r;           # $x is 'def123xyz' and
                                # $_ remains 'abc123xyz'.

    # expand variables in $_, but dynamics only, using
    # symbolic dereferencing
    s/\$(\w+)/${$1}/g;

    # Add one to the value of any numbers in the string
    s/(\d+)/1 + $1/eg;

    # Titlecase words in the last 30 characters only
    substr($str, -30) =~ s/\b(\p{Alpha}+)\b/\u\L$1/g;

    # This will expand any embedded scalar variable
    # (including lexicals) in $_ : First $1 is interpolated
    # to the variable name, and then evaluated
    s/(\$\w+)/$1/eeg;

    # Delete (most) C comments.
    $program =~ s {
        /\*     # Match the opening delimiter.
        .*?     # Match a minimal number of characters.
        \*/     # Match the closing delimiter.
    } []gsx;

    s/^\s*(.*?)\s*$/$1/;        # trim whitespace in $_,
                                # expensively

    for ($variable) {           # trim whitespace in $variable,
                                # cheap
        s/^\s+//;
        s/\s+$//;
    }

    s/([^ ]*) *([^ ]*)/$2 $1/;  # reverse 1st two fields

    $foo !~ s/A/a/g;    # Lowercase all A's in $foo; return
                        # 0 if any were found and changed;
                        # otherwise return 1

最後の例で \ の代わりに $ を使っているのに注意してください。 sed と違って、\<数字> の形式はパターンの方でのみ使用できます。その他の場所では、$<数字> を使います。

ときには、/g を付けるだけでは、あなたが望んでいるような形ですべてを変更することができないことがあります。良くある例を 2 つ示します:

    # put commas in the right places in an integer
    1 while s/(\d)(\d\d\d)(?!\d)/$1,$2/g;

    # expand tabs to 8-column spacing
    1 while s/\t+/' ' x (length($&)*8 - length($`)%8)/e;

s/// は /c フラグを受け付けますが、警告が有効の場合に警告を出す以外の効果はありません。

クォート風演算子

q/STRING/

'STRING'

シングルクォートされた、リテラル文字列です。バックスラッシュは、後ろに続くものが区切文字か、別のバックスラッシュである場合を除いて単なるバックスラッシュです; 区切文字やバックスラッシュが続く場合には、その区切文字自身もしくはバックスラッシュそのものが展開されます。

    $foo = q!I said, "You said, 'She said it.'"!;
    $bar = q('This is it.');
    $baz = '\n';                # a two-character string

qq/STRING/

"STRING"

ダブルクォートされた、リテラル文字列です。

    $_ .= qq
     (*** The previous line contains the naughty word "$1".\n)
                if /\b(tcl|java|python)\b/i;      # :-)
    $baz = "\n";                # a one-character string

qx/STRING/

`STRING`

展開され、必要なら /bin/sh またはそれと等価なものでシステムのコマンドとして実行される(であろう)文字列です。シェルのワイルドカード、パイプ、リダイレクトが有効です。 system と同様、文字列にシェルメタ文字が含まれていないときは、直接実行されます。そのコマンドの、標準出力を集めたものが返されます; 標準エラーは影響を与えません。スカラコンテキストでは、(複数行を含むかもしれない) 1 つの文字列が戻ってきます; シェル (またはコマンド) が開始できなかったときは undef を返します。リストコンテキストでは、($/ もしくは $INPUT_RECORD_SEPARATOR をどのように設定していても) 行のリストを返します; シェル (またはコマンド) が開始できなかったときは空リストを返します。

バッククォートは標準エラーには影響を与えないので、標準エラーを使いたい場合は(シェルが対応しているものとして)シェルのファイル記述子の文法を使ってください。コマンドの STDERR と STDOUT を共に取得したい場合は:

    $output = `cmd 2>&1`;

コマンドの STDOUT は取得するが STDERR は捨てる場合は:

    $output = `cmd 2>/dev/null`;

コマンドの STDERR は取得するが STDOUT は捨てる場合は (ここでは順序が重要です):

    $output = `cmd 2>&1 1>/dev/null`;

STDERR を取得するが、STDOUT は古い STDERR のために残しておくために STDOUT と STDERR を交換するには:

    $output = `cmd 3>&1 1>&2 2>&3 3>&-`;

コマンドの STDOUT と STDERR の両方を別々に読み込みたい場合、一番簡単な方法は別々のファイルにリダイレクトし、プログラムが終了してからそのファイルを読むことです:

    system("program args 1>program.stdout 2>program.stderr");

コマンドによって使われる STDIN ファイルハンドルは Perl の STDIN を継承します。例えば:

    open(SPLAT, "stuff")   || die "can't open stuff: $!";
    open(STDIN, "<&SPLAT") || die "can't dupe SPLAT: $!";
    print STDOUT `sort`;

は "stuff" という名前のファイルの内容をソートして表示します。

シングルクォートをデリミタとして使うと Perl のダブルクォート展開から保護され、そのままシェルに渡されます:

    $perl_info  = qx(ps $$);            # that's Perl's $$
    $shell_info = qx'ps $$';            # that's the new shell's $$

この文字列がどのように評価されるかは完全にシステムのコマンドインタプリタに依存します。ほとんどのプラットフォームでは、シェルのメタ文字をリテラルに扱ってほしい場合はそれを守る必要があります。文字をエスケープする方法が明確ではないので、これは理論的には難しいことです。逆クォートを安全にエミュレートするために手動で fork() と exec() を行うためのきれいで安全な例については perlsec を参照してください。

(特に DOS 風の)プラットフォームには、シェルが複数行のコマンドを扱うことができないものがあるので、文字列に改行を入れるとあなたの望まない結果になる場合があります。シェルが対応していれば、コマンド分割文字で分割することで 1 行に複数のコマンドを入れて解釈させることができます (この文字は、多くの Unix シェルでは ;、Windows NT cmd シェルでは & です)。

Perl は子プロセスの実行前に書き込み用に開いている全てのファイルをフラッシュしようとしますが、これに対応していないプラットフォームもあります(perlport を参照してください)。安全のためには、$| (English モジュールでは $AUTOFLUSH)をセットするか、開いている全てのハンドルに対して IO::Handle の autoflush() メソッドを呼び出す必要があります。

コマンド行の長さに制限があるコマンドシェルがあることに注意してください。全ての必要な変換が行われた後、コマンド文字列がこの制限を越えないことを保障する必要があります。特定の環境に関するさらなる詳細についてはプラットフォーム固有のリリースノートを参照してください。

この演算子を使うと、プログラムの移殖が困難になります; 呼び出されるシェルコマンドはシステムによって異なり、実際全く存在しないこともあるからです。一つの例としては、POSIX シェルの type コマンドは DOS の type コマンドと大きく異なっています。これは、何かを為すために正しい方法として逆クォートを使うことを避けるべきであることを意味しません。 Perl は接着剤のような言語として作られ、接着されるべきものの一つはコマンドです。単にあなたが何をしようとしているかを理解しておいてください。

system シフトと同様、逆クォートは子プロセスの終了コードを $? に設定します。手動で失敗を調査したい場合、次のように $? を調べることによって全てのあり得る失敗モードをチェックできます:

    if ($? == -1) {
        print "failed to execute: $!\n";
    }
    elsif ($? & 127) {
        printf "child died with signal %d, %s coredump\n",
            ($? & 127),  ($? & 128) ? 'with' : 'without';
    }
    else {
        printf "child exited with value %d\n", $? >> 8;
    }

コマンドの出力を読み込むのに使われる I/O 層を制御するには open を使います; 例えば:

  use open IN => ":encoding(UTF-8)";
  my $x = `cmd-producing-utf-8`;

qx// はまた、"readpipe" in perlfunc のような関数から呼び出されます。

さらなる議論については "I/O Operators" を参照して下さい。

qw/STRING/

埋め込まれた空白を区切文字として、STRING から抜き出した単語のリストを評価します。これは、以下の式と大体同じと考えられます:

    split(" ", q/STRING/);

違いは、ASCII の空白でのみ分割し、実際のリストをコンパイル時に生成し、スカラコンテキストではリストの最後の要素を返すことです。従って、以下の表現は:

    qw(foo bar baz)

以下のリストと文法的に等価です。

    "foo", "bar", "baz"

よく行なわれる例としては以下のものです:

    use POSIX qw( setlocale localeconv )
    @EXPORT = qw( foo bar baz );

よくある間違いは、単語をカンマで区切ったり、複数行の qw 文字列の中にコメントを書いたりすることです。このために、usr warnings プラグマと -w スイッチ (つまり、$^W 変数) は STRING に "," や "#" の文字が入っていると警告を出します。

tr/SEARCHLIST/REPLACEMENTLIST/cdsr

y/SEARCHLIST/REPLACEMENTLIST/cdsr

検索リスト (SEARCHLIST) に含まれる (あるいは /c 修飾子が指定されている場合は含まれない)文字を、置換リスト (REPLACEMENTLIST) の位置的に対応する文字に変換します (指定された修飾子によっては一部が削除されることもあります)。置換または削除が行なわれた、文字数を返します。 =~ 演算子や !~ 演算子で文字列が指定されていなければ、$_ の文字列が変換されます。

sed 愛好者のために、y が tr の同義語として提供されています。

/r (非破壊) オプションがあると、文字列の新しいコピーが作られてその文字が変換され、変更されたかどうかに関わらずこのコピーが返されます: 元の文字列は常に無変更で残されます。新しいコピーは、たとえ入力がオブジェクトや tie された変数でも、常にプレーンな文字列です。

/r オプションが使われない限り、=~ で指定される文字列は、スカラ変数、配列要素、ハッシュ要素、あるいはこれらへの代入式といった左辺値でなければなりません。

SEARCHLIST と REPLACEMENTLIST を区切る文字は、スラッシュだけでなく、任意の表示文字が可能です。それがシングルクォート (tr'SEARCHLIST'REPLACEMENTLIST') の場合、 \\ の組から \ を削除する変換のみが行われます。

さもなければ、文字の範囲はハイフンを使って指定できます; tr/A-J/0-9/ は tr/ACEGIBDFHJ/0246813579/ と同じ置換を行います。

SEARCHLIST を括弧類で括った場合には、REPLACEMENTLIST 用に、もう一組の区切り文字を用意しなければなりません; これは、括弧類であっても、なくてもかまいません; 例えば、tr[aeiouy][yuoiea] や tr(+\-*/)/ABCD/ です。

文字はリテラルか、(区切り文字がシングルクォートでない場合) ダブルクォート文字列の中で受け入れられるエスケープシーケンスです。しかし変数展開は行われないので、"$" と "@" は常にリテラルとして扱われます。先頭、末尾、および逆スラッシュが前置されたハイフンもまた常にリテラルとして扱われます。エスケープシーケンスの詳細はこの節の先頭付近の表にあります。

tr は \d や \pL といった正規表現文字クラスを 使わない ことに注意してください。 tr 演算子は tr(1) ユーティリティと等価ではありません。 tr[a-z][A-Z] は "a" から "z" までの 26 文字を大文字にしますが、 ASCII の範囲外の大文字小文字を変更する場合は、 lc, uc, lcfirst, ucfirst (全て perlfunc に文書化されています), あるいは置換演算子 s/PATTERN/REPLACEMENT/ (REPLACEMENT 部での \U, \u, \L, \l 文字列変換エスケープ) を使ってください。

ほとんどの範囲は文字集合管で互換性がありませんが、一部のものは互換性を持たせるために Perl が特別に扱います。移植性のある範囲には二つのクラスがあります。一つ目はリテラル文字として記述された A-Z, a-z, 0-9 の部分集合です。

  tr/h-k/H-K/

とすると、プラットフォームの文字集合が何であるかに関わらず、文字 "h", "i", "j", "k" を大文字にして、それ以外は何もしません。一方、次のようなもの全ては

  tr/\x68-\x6B/\x48-\x4B/
  tr/h-\x6B/H-\x4B/
  tr/\x68-k/\x48-K/

ASCII プラットフォームで実行した場合は前述の例と同じ大文字かを行いますが、 EBCDIC プラットフォームでは全く違うことをします。

移植性のある範囲の二つ目のクラスは、範囲の片方または両方の端が \N{...} として記述された場合です

 $string =~ tr/\N{U+20}-\N{U+7E}//d;

これは、Unicode での U+0020, U+0021, ... U+007D, U+007E と等価な、今のプラットフォームでの全ての文字を $string から削除します。これは移植性のある範囲で、実行される全てのプラットフォームで同じ効果があります。この例では、これらは ASCII の表示文字です。従ってこれを実行した後、$string は制御文字および ASCII で等価なものがない文字のみとなります。

しかし、移植性のある範囲であっても、マニュアルで調べる必要なしには、何が含まれるのかは一般的に明らかではありません。健全な原則としては、範囲の最初と最後をどちらも ASCII 英字 (大文字小文字も同じ)(b-e, B-E)にするか、どちらも数字にする(1-4) ことです。それ以外は不明確です(そして \N{...} が使われていない限り移植性はありません)。疑わしいときは、文字セットを完全に書き出してください。

オプションは以下の通りです:

    c   SEARCHLIST を補集合にする。
    d   見つかったが置換されなかった文字を削除する。
    r   修正した結果を返し、もとの文字列はそのままにする。
    s   置換された文字が重なったときに圧縮する。

/d 修飾子が指定されると、SEARCHLIST に指定されて、 REPLACEMENTLIST に対応するものがない文字が削除されます。 (これは、SEARCHLIST で見つかったものを削除する、ただそれだけの、ある種の tr プログラムの動作よりと比べれば、いく分柔軟なものになっています。)

/s 修飾子が指定されると、同じ文字に文字変換された文字の並びを、その文字 1 文字だけに圧縮します。

 my $a = "aaabbbca";
 $a =~ tr/ab/dd/s;     # $a now is "dcd"

/d 修飾子が使われると、REPLACEMENTLIST は、常に指定された通りに解釈されます。さもなければ、REPLACEMENTLIST が SEARCHLIST よりも短い場合、同じ長さになるまで、最後の文字が繰り返されているものとして扱われます。 REPLACEMENTLIST が空文字列のときには最後の文字というものはなく、その場合は REPLACEMENTLIST は SEARCHLIST からコピーされます。空の REPLACEMENTLIST は、ある文字クラスに含まれる文字数を数えるときや、ある文字クラスの文字の並びを圧縮するようなときに便利です。

    tr/abcd//            tr/abcd/abcd/
    tr/abcd/AB/          tr/abcd/ABBB/
    tr/abcd//d           s/[abcd]//g
    tr/abcd/AB/d         (tr/ab/AB/ + s/[cd]//g)  - but run together

/c 修飾子が指定されると、SEARCHLIST に「ない」ものが文字変換されます; つまり、補集合です。 /d や /s も指定されている場合、これらは SEARCHLIST の補集合に適用されます。 REPLACEMENTLIST が空の場合、(/d の下でなければ) 代わりに SEARCHLIST のコピーが使われることを思い出してください。このコピーは、/c の下の補集合化の後で行われます。 SEARCHLIST は補集合化の後で符号位置の順序でソートされ、 REPLACEMENTLIST はソートされた結果に対して適用されます。つまり、/c の下では、SEARCHLIST で指定された文字の順序は無関係です。 REPLACEMENTLIST に複数の文字が含まれている場合、 EBCDIC システムでは異なった結果を引き起こすことがあるので、そのような REPLACEMENTLIST に対して /c を使うのは一般的に移植性がありません。

この操作を説明するもう一つの方法は次のものです: /c が指定されると、SEARCHLIST は符号位置順にソートされ、それから補集合化されます。 REPLACEMENTLIST が空で /d が指定されていないと、 REPLACEMENTLIST は (/c で修正された) SEARCHLIST のコピーに置き換えられ、この変更されているかも知れないリストは引き続くものに対しての基礎として使われます。ターゲット文字列のうち、SEARCHLIST ににない文字は変更されずにそのままになります。ターゲット文字列のその他のそれぞれの文字は、 SEARCHLIST の中の文字に位置的に対応する、 REPLACEMENTLIST の中の文字に置き換えられます; /s の下では例外で、連続して同じ文字に変換された文字並びの 2 文字目以降の文字は削除されます。 SEARCHLIST が REPLACEMENTLIST より長い場合、 SEARCHLIST の文字のうち REPLACEMENTLIST に対応するものがない文字にマッチングしたターゲット文字列の中の文字は、 /d が指定されていればターゲット文字列から削除されます; /d が指定されていなければREPLACEMENTLIST の最後の文字に置き換えられます。

いくつかの例:

 $ARGV[1] =~ tr/A-Z/a-z/;   # canonicalize to lower case ASCII

 $cnt = tr/*/*/;            # count the stars in $_
 $cnt = tr/*//;             # same thing

 $cnt = $sky =~ tr/*/*/;    # count the stars in $sky
 $cnt = $sky =~ tr/*//;     # same thing

 $cnt = $sky =~ tr/*//c;    # count all the non-stars in $sky
 $cnt = $sky =~ tr/*/*/c;   # same, but transliterate each non-star
                            # into a star, leaving the already-stars
                            # alone.  Afterwards, everything in $sky
                            # is a star.

 $cnt = tr/0-9//;           # count the ASCII digits in $_

 tr/a-zA-Z//s;              # bookkeeper -> bokeper
 tr/o/o/s;                  # bookkeeper -> bokkeeper
 tr/oe/oe/s;                # bookkeeper -> bokkeper
 tr/oe//s;                  # bookkeeper -> bokkeper
 tr/oe/o/s;                 # bookkeeper -> bokkopor

 ($HOST = $host) =~ tr/a-z/A-Z/;
  $HOST = $host  =~ tr/a-z/A-Z/r; # same thing

 $HOST = $host =~ tr/a-z/A-Z/r   # chained with s///r
               =~ s/:/ -p/r;

 tr/a-zA-Z/ /cs;                 # change non-alphas to single space

 @stripped = map tr/a-zA-Z/ /csr, @original;
                                 # /r with map

 tr [\200-\377]
    [\000-\177];                 # wickedly delete 8th bit

 $foo !~ tr/A/a/    # transliterate all the A's in $foo to 'a',
                    # return 0 if any were found and changed.
                    # Otherwise return 1

複数の文字変換が一つの文字について指定されると、最初のものだけが使われます。

 tr/AAA/XYZ/

は A を X に変換します。

変換テーブルはコンパイル時に作られるので、SEARCHLIST も REPLACEMENTLIST もダブルクォート展開の対象とはなりません。変数を使いたい場合には、eval() を使わなければならないということです:

 eval "tr/$oldlist/$newlist/";
 die $@ if $@;

 eval "tr/$oldlist/$newlist/, 1" or die $@;

<<EOF

クォートの行指向形式は、シェルの「ヒアドキュメント」構文を基にしています。 << に引き続いて、クォートされるテキストを終了させる文字列を指定でき、現在の行の次の行から終端文字列までの全ての行がその項目の値となります。

終端文字列に ~ を前置することで、"Indented Here-docs" (後述)を使いたいことを指定します。

終端文字列には、識別子(単語) かクォートされたテキストが使えます。クォートされていない識別子は、ダブルクォートのように扱われます。識別子がクォートされていない場合は、<< と識別子の間に空白を入れてはいけません。終端文字列は終端行に単体で(クォートされず、前後にも空白なしで) 現れなければなりません。

終端文字列がクォートされている場合には、そのクォートの種類によって、クォートされるテキストの扱い決められます。

ダブルクォート

ダブルクォートは、通常のダブルクォートされた文字列と全く同じ規則を使って変数展開されることを示します。

       print <<EOF;
    The price is $Price.
    EOF

       print << "EOF"; # same as above
    The price is $Price.
    EOF

シングルクォート

シングルクォートは、内容が展開されずにリテラルに扱われることを意味します。これはシングルクォート文字列と似ていますが、バックスラッシュは特別な意味を持たず、他の全てのクォート構造違って、\\ は二つのバックスラッシュとして扱われることが違います。

シェルでの場合と同様、<< に引き続いてバックスラッシュ付きの裸の単語があると、シングルクォートされた文字列と同じこととなります:

        $cost = <<'VISTA';  # hasta la ...
    That'll be $10 please, ma'am.
    VISTA

        $cost = <<\VISTA;   # Same thing!
    That'll be $10 please, ma'am.
    VISTA

これは、perl において、内容のエスケープについて心配する必要のない唯一の形で、コードジェネレータがうまく使えるものです。

逆スラッシュ

ヒアドキュメントのの内容は、文字列がバッククォートで埋め込まれているかのように扱われます。したがって、その内容、はダブルクォートされているかのように変数展開され、その後シェル経由で実行され、実行された結果になります。

       print << `EOC`; # execute command and get results
    echo hi there
    EOC

Indented Here-docs

ヒヤドキュメント修飾子 ~ は、コードをより読みやすくするためにヒヤドキュメントをインデントできるようにします:

    if ($some_var) {
      print <<~EOF;
        This is a here-doc
        EOF
    }

これは次のものを...

    This is a here-doc

...先頭の空白なしで表示します。

The delimiter is used to determine the exact whitespace to remove from the beginning of each line. 全ての行は(改行のみの行を除いて)少なくとも同じだけの先頭の空白が なければならず、さもなければ perl は croak します。タブとスペースは混ぜることが出来ますが、正確にマッチングしなければなりません。一つのタブは 8 スペースと同じではありません!

(区切り文字で指定された以上の)追加の先頭の空白は保存されます:

    print <<~EOF;
      This text is not indented
        This text is indented with two spaces
                This text is indented with two tabs
      EOF

最後に、この修飾子は前述した全ての型式で使うことが出来ます:

    <<~\EOF;
    <<~'EOF'
    <<~"EOF"
    <<~`EOF`

そして空白は ~ とクォートされた区切り文字の間にも使えます:

    <<~ 'EOF'; # ... "EOF", `EOF`

複数のヒアドキュメントを連続してスタックすることも可能です:

       print <<"foo", <<"bar"; # you can stack them
    I said foo.
    foo
    I said bar.
    bar

       myfunc(<< "THIS", 23, <<'THAT');
    Here's a line
    or two.
    THIS
    and here's another.
    THAT

以下のようなことをしたいのではないということが Perl にはわからないので、文を終わらせるためには末尾にセミコロンをつけなければならないことを忘れないで下さい:

       print <<ABC
    179231
    ABC
       + 20;

ヒアドキュメントから行終端子を除去したい場合は、chomp() を使ってください。

    chomp($string = <<'END');
    This is a string.
    END

ヒアドキュメントをソースのほかの部分からインデントしたい場合、 "Indented Here-docs" に記述されている <<~FOO 構文を使ってください:

    $quote = <<~'FINIS';
       The Road goes ever on and on,
       down from the door where it began.
       FINIS

s///eg のようなデリミタ構造の中でヒアドキュメントを使う場合、クォートされたものは、やはり区切られた構造の内側を意味するかもしれない <<FOO マーカーに引き続くものとして来なければなりません:

    s/this/<<E . 'that'
    the other
    E
     . 'more '/eg;

この方法は Perl 5.18 から動作します。歴史的には、これは一貫性がなく、以下のように

    s/this/<<E . 'that'
     . 'more '/eg;
    the other
    E

文字列 eval の外側で書く必要があります。

さらに、文字列終端識別子に対するクォートルールは Perl のクォートルールとは関係がありません。 q(), qq() および同種のものは '' や "" の代わりのなるものには対応しておらず、文字をクォートするためのバックスラッシュだけが展開されます:

    print << "abc\"def";
    testing...
    abc"def

最後に、クォートされた文字列は複数行にかかることはありません。識別子に関する一般的なルールは、文字列リテラルでなければならいことです。これに従っていれば、安全のはずです。

クォートされた構造のパースに関する詳細

何か複数の解釈が可能な表現があった場合、Perl は最も確からしい解釈を選択するために DWIM ("Do What I Mean")原則を使います。この戦略は非常に成功したので、Perl プログラマはしばしば自分が書いたものの矛盾を疑いません。しかし時間がたつにつれて、Perl の概念は作者が本当に意味していたものからかなり変わりました。

この章では Perl がどのようにクォートされた構造を扱うかを明確にしようと思います。これを学ぼうとする最もよくある理由は正規表現の迷宮をほぐすためですが、パースの初期ステップは全てのクォート演算子で同じなので、全て同時に扱います。

Perl のパースに関するルールで最も重要なものは以下で述べているうち最初のものです: つまり、クォートされた構造を処理するときは、Perl はまずその構造の最後を探して、それから中身を解釈します。このルールがわかれば、とりあえずはこの章の残りは読み飛ばしてもかまいません。その他のルールは最初のルールに比べてユーザーの予想に反する頻度ははるかに少ないです。

以下で議論するパスには同時に実行されるものもありますが、結果は同じことなので、別々に考えることにします。クォート構造の種類によって、Perl が実行するパスの数は 1 から 4 まで異なりますが、これらのパスは常に同じ順番で実行されます。

最後を探す

最初のパスは、クォート構造の末尾を探すことです。これにより、(開始デリミタと終了デリミタの間の)テキストは安全な場所にコピーされ、元のデリミタが何だったかを知る必要がないように正規化されます。

構造がヒアドキュメントの場合、終了デリミタは内容として終端文字列を持つ行です。従って、<<EOF は、"\n" の直後の、終端行の最初の列から始まる EOF で終端します。ヒアドキュメントの終端行を探すとき、読み飛ばされるものはありません。言い換えると、ヒアドキュメント文法以降の行は、1 行毎に終端文字列と比較されます。

ヒアドキュメント以外の構造では、1 文字が開始デリミタと終了デリミタとして使われます。開始デリミタが組の開き文字((, [, {, < のいずれか)の場合、終了デリミタは対応する組の閉じ文字(つまり ), ], }, >) です。開始デリミタが / 組になる文字や、組の閉じ文字の場合、終了デリミタは開始デリミタと同じです。従って / は qq// 構造を終端し、一方 ] は qq[] と qq]] の両方の構文を終端します。

1 文字のデリミタを探す場合、エスケープされたデリミタと \\ は読み飛ばします。例えば、/ を探しているときには、\\ と \/ の組み合わせを読み飛ばします。デリミタがかっこでくくられている場合は、ネストした組も読み飛ばされます。例えば、開きの [ と組になる閉じの ] を探しているときには、 \\, \], \[ の組み合わせをは全て読み飛ばし、さらにネストした [, ] も読み飛ばします。しかし、(qq\\ や tr\\\ のように)バックスラッシュがデリミタとして使われた場合、何も読み飛ばしません。末尾の検索中、デリミタやその他のバックスラッシュをエスケープするバックスラッシュは除去されます(述べたとおりに正確に、安全な場所にコピーはされません)。

3 つのデリミタからなる構造 (s///, y///, tr///) の場合、検索はもう一度繰り返されます。最初のデリミタが開きかっこでない場合、s!!! and tr))) のように 3 つのデリミタは同じでなければなりません; この場合、2 番目のデリミタが左側の終端と右側の開始を同時に行います。左側のデリミタがかっこを構成するもの (これは (), [], {}, <> のいずれか) の場合、右側も s(){} や tr[]// のようなデリミタである必要があります。これらの場合、右側と左側の間には空白やコメントを置けますが、コメントは少なくとも一つの空白文字の後である必要があります; さもなければコメントの開始文字が右側の開始デリミタとして扱われてしまいます。

検索する間、構造の文脈は考慮しません。従って:

    "$hash{"$foo/$bar"}"

または:

    m/
      bar       # NOT a comment, this slash / terminated m//!
     /x

は正しいクォート表現ではありません。クォートは最初の " や / で終わりとなり、残りの部分は文法エラーとなります。 m// を終わらせているスラッシュの次に来ているのが 空白 なので、上の例では m//x ではなく、/x なしの m// となります。従って、中にある # はリテラルな # として扱われます。

この検索の間、\c\ (マルチバイト文字制御文法)に注意は払われません。従って、qq/\c\/ の 2 番目の \ は \/ の一部として扱われ、引き続く / はデリミタとして認識されません。代わりに、クォート構造の末尾に \034 か \x1c を使ってください。

展開

次のステップは、得られた(デリミタに依存しない)テキストに対する展開です。複数のケースがあります。

<<'EOF'

展開は行われません。 \\ の組み合わせはそのままであることに注意してください; ヒアドキュメントではデリミタのエスケープはできないからです。

m'', the pattern of s'''

このステージでは展開は行われません。 \\ を含む、バックスラッシュ付きのシーケンスは "parsing regular expressions" で扱われます。

'', q//, tr''', y''', the replacement of s'''

\\ の組における \ の削除のみが行われます。従って、tr''' や y''' の中にある "-" は文字通りハイフンとして扱われ、文字範囲は使えません。 s''' の置換文字列での \1 は $1 としては動作しません。

tr///, y///

変数展開は行われません。 \Q, \U, \E のような、大文字小文字やクォートに関する、文字列を変更するような組み合わせは認識されません。 \200 や \t のようなその他のエスケープシーケンスや、 \\ や \- のようなバックスラッシュ付きの文字は、適切なリテラルに変換されます。文字 "-" は特別扱いされるので、\- はリテラルな "-" として扱われます。

"", ``, qq//, qx//, <file*glob>, <<"EOF"

\Q, \U, \u, \L, \l, \F (おそらくは \E との組)は対応する Perl 構造に変換されます。従って、"$foo\Qbaz$bar" は内部的に $foo . (quotemeta("baz" . $bar)) に変換されます。 \200 や \t のような、その他のエスケープシーケンスや、\\ や \- のような、バックスラッシュがつけられた文字は適切な拡張に置換されます。

\Q と \E の間にある全てのもの が通常の方法で展開されます。 "\Q\\E" のようなものは内部にあるのは \E ではありません。 \Q, \\, E であるので、結果は "\\\\E" と同じになります。一般的なルールとして、\Q と \E の間にあるバックスラッシュは直感に反した結果になります。それで、"\Q\t\E" は quotemeta("\t") に変換され、これは(TAB は英数字ではないので "\\\t" と同じです。以下のようなことにも注意してください:

  $str = '\t';
  return "\Q$str";

これは "\Q\t\E" を書いた人の憶測上の意図により近いです。

展開されたスカラと配列は内部で join と "." の結合操作に変換されます。従って、"$foo XXX '@arr'" は以下のようになります:

  $foo . " XXX '" . (join $", @arr) . "'";

上記の全ての操作は、左から右に同時に行われます。

"\Q STRING \E" の結果は全てのメタ文字がクォートされているので、 \Q\E の組の内側にリテラルの $ や @ を挿入する方法はありません。 \ によって守られている場合、$ はクォートされて "\\\$" となります; そうでない場合、これは展開されるスカラ変数の開始として解釈されます。

展開コードは、展開するスカラ変数がどこで終わるかを決定する必要があることにも注意してください。例えば、"a $x -> {c}" が実際には以下のどちらかになります:

  "a " . $x . " -> {c}";

または:

  "a " . $x -> {c};

ほとんどの場合、要素と、マッチする中かっこや大かっこの間に空白を含まない、最も長いテキストになります。出力は発見的な推定器をよる投票によって決定されるので、結果は厳密には予測できません。幸い、紛らわしい場合でも普通は正しいです。

the replacement of s///

\Q, \U, \u, \L, \l, \F の処理と展開が qq// 構造と同じように起こります。

このステップでは、より健全な文法をまだ導入していない、手に負えない sed ハッカーのために、s/// の置換テキストの中にある \1 を、しぶしぶながら $1 に変換します。 use warnings プラグマやコマンドラインオプション -w (これは $^W 変数です) がセットされていると警告が生成されます。

RE in m?RE?, /RE/, m/RE/, s/RE/foo/,

\Q, \U, \u, \L, \l, \F, \E の処理と展開が qq// 構文と (ほとんど)同じように起こります。

\N{...} の処理もここで行われ、正規表現コンパイラのための中間形式にコンパイルされます。 (これは、後述するように、正規表現のコンパイルは実行時に行われ、 \N{...} はコンパイル時の構文だからです。)

しかし、その他の、\ の後に文字が続く組み合わせは置換されず、単に読み飛ばされます; これは以下のステップで正規表現としてパースするためです。ここでは \c は読み飛ばされるので、正規表現中の \c@ の @ は配列のシンボル(例えば @foo) と扱われる可能性があります; 一方 qq// 内の同じテキストは \c@ と展開されます。

(?{BLOCK}) のようなコードブロックは、一時的に制御を perl パーサに渡すことで扱われます; これは "foo$array[1+f("[xyz")]bar" のような、変数展開される配列添え字表現と同様の方法です。

さらに、(?{BLOCK}), (?# comment ), /x 正規表現での # のコメントの中では、どのような処理も行われません。これは /x 修飾子が影響を与える最初のステップです。

パターン内の展開ではいくつか特殊な動作をします: $|, $(, $), @+, @- は展開されず、 $var[SOMETHING] は(いくつかの異なる推定器によって)配列の要素か $var の後に正規表現が続いているのかが投票されます。これは ${arr[$bar]} が便利になるところです: /${arr[0-9]}/ は配列要素 -9 として解釈され、/$arr[0-9]/ の場合のように $arr の後に数値が続いているような正規表現としては解釈されません。異なった推定器によって投票されることがあるので、結果は予測できません。

\\ を処理しないことにより、後処理したテキストに特定の制限があります。デリミタが / の場合、このステップの結果として \/ を得ることはできません。 / は正規表現を終わらせ、\/ は前のステップで / に展開され、 \\/ はそのまま残されます。 / は正規表現の中では \/ と等価なので、これはたまたまデリミタが正規検索エンジンにとって特別な文字の場合、つまり s*foo*bar*, m[foo], m?foo? のような場合、あるいは以下のように英数字でなければ、問題にはなりません:

  m m ^ a \s* b mmx;

上記の正規表現では、説明のために意図的にわかりにくくしていますが、デリミタは m で、修飾子は mx で、デリミタを取り除いた後の正規表現は m/ ^ a \s* b /mx と同じです。デリミタを英数字や空白でないものに制限するべきである理由は複数あります。

これは正規表現以外の全ての構造にとって最後のステップです; 正規表現はさらに処理が続きます。

正規表現のパース

以前のステップは Perl コードのコンパイル中に実行されますが、これは実行時に起こりますが、もし適切ならコンパイル時に計算できるように最適化されることもあります。上記の前処理の後、そして必要なら連結、結合、大文字小文字変換、メタクォート化が行われた後、結果の 文字列 がコンパイルのために正規表現エンジンに渡されます。

正規表現エンジンで起こることについては perlre で議論した方がよいでしょうが、継続性のために、ここでそれを行います。

これも /x 修飾子の存在が関連するステップの一つです。正規表現エンジンは文字列を左から右にスキャンして、有限状態オートマトンに変換します。

バックスラッシュ付きの文字は(\{ のように)対応するリテラル文字列に置換されるか、あるいは(\b のように)有限状態オートマトンの特別なノードを生成します。 (| のような)正規表現エンジンにとって特別な文字は対応するノードかノードのグループを生成します。 (?#...) コメントは無視されます。残りの全てはマッチするリテラル文字列に変換されるか、そうでなければ (/x が指定された時の空白と # スタイルのコメントと同様に) 無視されます。

文字クラス構造 [...] のパースは他のパターンとはルールが異なります。この構造の終端は {} でデリミタされた構造の終端を検索するのと同じルールで検索されます; 唯一の例外は、[ の直後の ] はバックスラッシュが先行しているものとして扱われます。

実行時 (?{...}) の終端は、一時的に perl パーサに制御を切り替えることで見つけられ、論理的にバランスした終端 } が見つかって場所で停止します。

正規表現に与えられる文字列と、結果としての有限状態オートマトンの両方を検査できます。 use re プラグマの debug/debugcolor 引数と、 "Command Switches" in perlrun に記述されている -Dr コマンドラインオプションを参照してください。

正規表現の最適化

このステップは完全性のためだけにリストされています。これは意味論的には変化がないので、このステップの詳細は文書化されておらず、将来予告なしに変更されることがあります。このステップはここまでの処理で生成された有限オートマトンに対して適用されます。

split() で /^/ を暗黙に /^/m に最適化するのもこのステップです。

I/O 演算子

知っておいた方がよい I/O 演算子もいくつかあります。

バッククォートで括られた文字列は、まず、ダブルクォート補完のように変数の展開が行なわれます。その後、シェルでの場合と同じように、外部コマンドとして解釈され、そのコマンドの出力がこのバッククォート文字列の値となります。スカラーコンテキストでは、出力すべてを含む一個の文字列が返されます。リストコンテキストでは、出力の 1 行 1 行が個々の要素となるリストが返されます。 ($/ を設定すれば、行の終わりを示す文字を変えることができます。) コマンドは、この擬似リテラルが評価されるごとに実行されます。コマンドのステータス値は $? に返されます ($? の解釈については、 perlvar を参照してください)。 csh での場合とは違って、結果のデータに対する変換は行なわれず、改行は改行のままです。どのシェルとも違って、シングルクォートがコマンド中の変数名を解釈させないようにすることはありません。シェルにリテラルなドル記号を渡すには、バックスラッシュでエスケープしなければなりません。バッククォートの一般形は、qx// か、 "readpipe" in perlfunc 関数を呼び出せます。 (バッククォートは常にシェル展開されます。セキュリティに関しては perlsec を参照して下さい。)

スカラーコンテキストで山括弧の中のファイルハンドルを評価すると、そのファイルから、次の行を読み込むことになります (改行があればそれも含まれます); ファイルの最後またはエラーの場合は undef を返します。 $/ が undef に設定されている場合(ファイル吸い込みモードと呼ばれます) でファイルが空の場合、最初は '' を返し、次は undef を返します。

通常は、返された値を変数に代入しなければなりませんが、自動的に代入される場合が 1 つだけあります。この入力シンボルが、while 文(for(;;) の形になっていたとしても)の条件式中に単独で現れた場合だけは、その値が自動的にグローバル変数 $_ に代入されます; 以前の値は破壊されます。 (これは、奇妙に思えるかもしれませんが、ほとんどすべての Perl スクリプトでこれが必要になることでしょう。) $_ 変数は暗黙にはローカル化されません。そうしたい場合はループの前に local $_; と書く必要があります。さらに、入力シンボルまたは入力シンボルからスカラへの明示的な代入が while/for の条件部として使われた場合、条件は通常の真の値かどうかではなく、式の値が定義されているかどうかをテストします。

従って、以下のものは互いに同値なものです:

    while (defined($_ = <STDIN>)) { print; }
    while ($_ = <STDIN>) { print; }
    while (<STDIN>) { print; }
    for (;<STDIN>;) { print; }
    print while defined($_ = <STDIN>);
    print while ($_ = <STDIN>);
    print while <STDIN>;

以下は同様の振る舞いをしますが、$_ おｎ代わりにレキシカル変数に代入します:

    while (my $line = <STDIN>) { print $line }

これらのループ構造の中で、代入された値は (代入が自動か明示的かに関わりなく) 定義されているかどうかを見るためにテストされます。定義テストは、行が Perl にとって偽となる文字列値を持っているかどうかの問題を避けます; 例えば newline のついていない "" や "0" です。もし本当にこのような値でループを終了させたいときは、以下のように明示的にテストするべきです:

    while (($_ = <STDIN>) ne '0') { ... }
    while (<STDIN>) { last unless $_; ... }

その他の真偽値コンテキストでは、明示的な defined や比較なしに <FILEHANDLE> を使うと、use warnings プラグマや -w コマンドラインスイッチ ($^W 変数) が有効なときには、警告を発生させます。

STDIN、STDOUT、STDERR というファイルハンドルは、あらかじめ定義されています。 (stdin、stdout、stderr というファイルハンドルも、ローカルな名前でこれらのグローバルな名前が見えなくなっているパッケージを除けば、使用することができます。) その他のファイルハンドルは、open() 関数などで作ることができます。これに関する詳細については perlopentut と "open" in perlfunc を参照して下さい。

<FILEHANDLE> がリストを必要とするコンテキストで用いられると、 1 要素に 1 行の入力行すべてからなるリストが返されます。これを使うと簡単にかなり大きなデータになってしまいますので、注意を要します。

<FILEHANDLE> は readline(*FILEHANDLE) とも書けます。 "readline" in perlfunc を参照して下さい。

ヌルファイルハンドル <> (時々ダイヤモンド演算子と呼ばれます) は特別で、 sed や awk および、ファイル名のリストを取って、それら全てからの入力の各行に同じことをするようなその他の Unix フィルタプログラムをエミュレートするために使われます。 <> からの入力は、標準入力からか、コマンドライン上に並べられた個々のファイルから行なわれます。動作の概要は、以下のようになります: 最初に <> が評価されると、配列 @ARGV が調べられ、空であれば、$ARGV[0] に "-" を設定します。これは、open されるとき標準入力となります。その後、配列 @ARGV がファイル名のリストとして処理されます。

    while (<>) {
        ...                     # code for each line
    }

は以下ののような Perl の擬似コードと等価です:

    unshift(@ARGV, '-') unless @ARGV;
    while ($ARGV = shift) {
        open(ARGV, $ARGV);
        while (<ARGV>) {
            ...         # code for each line
        }
    }

但し、わずらわしく書かなくても、動作します。実際に @ARGV を shift しますし、その時点のファイル名を変数 $ARGV に入れています。また、内部的にファイルハンドル ARGV を使っています。 <> は <ARGV> の同義語で、マジカルです。 (上記の擬似コードは、<ARGV> をマジカルではないものとして扱っているので、うまく動作しません。)

空ファイルハンドルは 2 引数の "open" in perlfunc を使った特別な文字列なので、もし以下のようなスクリプトを書いて:

    while (<>) {
        print;
    }

これを perl dangerous.pl 'rm -rfv *|' として呼び出すと、実際にはパイプを開き、rm コマンドを実行して、 rm の出力をパイプから読みます。もし @ARGV の全ての要素をファイル名として解釈させたいなら、 CPAN にある ARGV::readonly モジュールか、二重ダイヤモンド山かっこが使えます。

    while (<<>>) {
        print;
    }

while の中で二重角かっこを使うと、 3 引数型式 (かつ 2 番目の引数が < の) open を引き起こすので、 ARGV の全ての引数は ("-" を含めて) リテラル名ファイル名として扱われます。 (便宜のため、<<>> を使って @ARGV が空の場合、標準入力から読み込みます。)

最終的に、@ARGV に扱いたいと思っているファイル名が含まれるのであれば、最初に <> を評価する前に @ARGV を変更することも可能です。行番号 ($.) は、入力ファイルがあたかも 1 つの大きなファイルであるかのように、続けてカウントされます。個々のファイルごとにリセットする方法は、"eof" in perlfunc の例を参照してください。

最初から @ARGV に自分でファイルのリストを設定してもかまいません。以下は @ARGV が与えられなかったときに全てのテキストファイルを @ARGV に設定します。

    @ARGV = grep { -f && -T } glob('*') unless @ARGV;

ここにパイプコマンドを置くことも出来ます。例えば、以下は圧縮された引数を自動的に gzip のフィルタに通します:

    @ARGV = map { /\.(gz|Z)$/ ? "gzip -dc < $_ |" : $_ } @ARGV;

スクリプトにスイッチを渡したいのであれば、Getopts モジュールを使うこともできますし、実際の処理の前にのようなループを置くこともできます。

    while ($_ = $ARGV[0], /^-/) {
        shift;
        last if /^--$/;
        if (/^-D(.*)/) { $debug = $1 }
        if (/^-v/)     { $verbose++  }
        # ...           # other switches
    }

    while (<>) {
        # ...           # code for each line
    }

シンボル <> がファイルの最後で undef を返すのは一度きりです。そのあとでもう一度呼び出すと、新たに別の @ARGV を処理するものとみなされ、その時に @ARGV を設定しなおしていないと、STDIN からの入力を読み込むことになります。

山括弧の中の文字列が ($foo のような) 単純スカラ変数であれば、その変数が入力を行なうファイルハンドルの名前そのもの、名前への型グロブ、名前へのリファレンスのいずれかを示しているとみなされます。例えば:

    $fh = \*STDIN;
    $line = <$fh>;

山括弧の中の文字列がファイルハンドルでもファイルハンドル名、型グロブ、型グロブリファレンスのいずれかが入った単純スカラ変数でもなければ、グロブを行なうファイル名のパターンと解釈され、コンテキストによってファイル名のリストか、そのリストの次のファイル名が返されます。この区別は単に構文的に行われます。 <$x> は常に間接ハンドルから readline() しますが、 <$hash{key}> は常に glob() します。 $x は単純スカラー変数ですが、$hash{key} は違う(ハッシュ要素)からです。 <$x > (余分な空白に注意) ですら readline($x) ではなく glob("$x ") として扱われます。

まず、1 段階だけダブルクォート展開が行なわれますが、前の段落に書いた間接ファイルハンドルと同じになる、<$foo> のようには書けません。 (Perl の古いバージョンでは、ファイル名グロブと解釈させるために <${foo}> のように中括弧を入れていました。最近ではより明確にするために、glob($foo) と内部関数を呼ぶこともできます; おそらく、まず、こちらの方で試すのが正解でしょう。) 例えば:

    while (<*.c>) {
        chmod 0644, $_;
    }

はだいたい以下と等価です:

    open(FOO, "echo *.c | tr -s ' \t\r\f' '\\012\\012\\012\\012'|");
    while (<FOO>) {
        chomp;
        chmod 0644, $_;
    }

但し実際のグロブは内部的に標準の File::Glob モジュールを使います。もちろん、もっと簡単に以下のように書けます:

    chmod 0644, <*.c>;

(ファイル)グロブは新しいリストを開始するときにだけ(組み込みの)引数を評価します。全ての値は開始する前に読み込んでいなければなりません。これはリストコンテキストでは、とにかく自動的に全てを取り込むので重要ではありません。しかし、スカラコンテキストではこの演算子は呼び出された時の次の値か、リストがなくなったときには undef を返します。ファイルハンドルを読み込む場合は、グロブが while の条件部にある場合は自動的な defined が生成されます; なぜならそうしないと、本来の glob の返り値 (例えば、0 というファイル) がループを終了させるからです。ここでも、undef は一度だけ返されます。従って、もしグロブから一つの値だけを想定している場合、以下のように書くことが:

    ($file) = <blurch*>;

以下のように書くよりはるかに良いです:

    $file = <blurch*>;

なぜなら後者はファイル名を返す場合と偽を返す場合があるからです。

変数変換に挑戦する場合、明らかに glob() 関数を使う方が良いです; なぜなら古い表記は間接ファイルハンドル表記と混乱するかも知れないからです。

    @files = glob("$dir/*.[ch]");
    @files = glob($files[$i]);

角かっこグロブ式が while や for ループの条件として使われた場合、これは暗黙に $_ に代入されます。さらに、グロブ式またはグロブ式からスカラへの明示的な代入が while/for の条件部として使われた場合、条件は通常の真の値かどうかではなく、式の値が定義されているかどうかをテストします。

定数の畳み込み

C と同じように Perl でも、演算子に対するすべての引数がスタティックで、副作用がないと判断できれば、コンパイル時に式の評価を行なってしまいます。特に、変数置換の無いリテラルどうしの文字列連結はコンパイル時に行なわれます。バックスラッシュの解釈もコンパイル時に行なわれます。以下のように書けて、

      'Now is the time for all'
    . "\n"
    .  'good men to come to.'

内部的に 1 つの文字列になります。同様に

    foreach $file (@filenames) {
        if (-s $file > 5 + 100 * 2**16) {  }
    }

と書くとコンパイラは、式が表わす数値をあらかじめ計算しますので、インタプリタで計算する必要がなくなっています。

無実行

Perl は公式には無実行演算子はありませんが、裸の定数 0 と 1 は特別に無効コンテキストでも警告を出さないことになっているので、例えば安全に以下のように書けます:

    1 while foo();

ビット列演算子

任意のサイズのビット列はビット単位演算子(~ | & ^)で操作できます。

二項ビット単位演算子のオペランドが異なった長さの文字列だった場合、 | と ^ の演算子は短い側のオペランドの右側に追加のゼロがついているとみなします; 一方 & 演算子は長い方のオペランドが短い方に切り詰められます。この拡張や短縮の粒度はバイト単位です。

    # ASCII-based examples
    print "j p \n" ^ " a h";            # prints "JAPH\n"
    print "JA" | "  ph\n";              # prints "japh\n"
    print "japh\nJunk" & '_____';       # prints "JAPH\n";
    print 'p N$' ^ " E<H\n";            # prints "Perl\n";

ビット列を操作したい場合は、確実にビット列が渡されるようにしてください: オペランドが数字の場合、数値ビット単位演算を仮定します。明示的に演算の型を指定するときには、以下の例のように "" か 0+ を使ってください。

    $foo =  150  |  105;        # 255 になる (0x96 | 0x69 は 0xFF)
    $foo = '150' |  105;        # 255 になる
    $foo =  150  | '105';       # 255 になる
    $foo = '150' | '105';       # (ASCII では) 文字列 '155' になる

    $baz = 0+$foo & 0+$bar;     # どちらのオペランドも明示的に数値
    $biz = "$foo" ^ "$bar";     # どちらのオペランドも明示的に文字列

この、いくらか予測の難しい振る舞いは、Perl 5.22 で導入された "bitwise" 機能で避けることができます。これは use feature 'bitwise' か use v5.28 で有効にできます。 Perl 5.28 より前では、これは "experimental::bitwise" カテゴリの警告を出力していました。この機能の基では、四つのビット単位演算子 (~ | & ^) は常に数値です。それぞれの演算子の後にピリオドを付ける (~. |. &. ^.) ことで、そのオペランドを文字列として扱うことを強制します:

    use feature "bitwise";
    $foo =  150  |  105;        # yields 255  (0x96 | 0x69 is 0xFF)
    $foo = '150' |  105;        # yields 255
    $foo =  150  | '105';       # yields 255
    $foo = '150' | '105';       # yields 255
    $foo =  150  |. 105;        # yields string '155'
    $foo = '150' |. 105;        # yields string '155'
    $foo =  150  |.'105';       # yields string '155'
    $foo = '150' |.'105';       # yields string '155'

    $baz = $foo &  $bar;        # both operands numeric
    $biz = $foo ^. $bar;        # both operands stringy

この機能の基では、これらの演算子の亜種 (&= |= ^= &.= |.= ^.=) も同様に振る舞います。

値が 0xFF 以上で、UTF-8 以外で表現できない文字がオペランドに含まれている場合、これは致命的エラーになります。他の UTF-8 でエンコードされたオペランドに対して非 UTF-8 のコピーに対して操作が行われます。 "Byte and Character Semantics" in perlunicode を参照してください。

ビットベクタの個々のビットをどのように操作するかの情報については "vec" in perlfunc を参照して下さい。

整数演算

デフォルトでは、Perl は演算を浮動小数で行なわなければならないものとしています。しかし、(もしそうしたいなら)

    use integer;

と書けば、その場所から現在の BLOCK の終わりまでは、整数演算 (詳しい説明は integer を参照してください) を行なってよいと、コンパイラに指示することができます。内部の BLOCK で、

    no integer;

と書けば、その BLOCK の終わりまでは、指示を取り消すことになります。これは全てを整数だけを使って処理することを意味するわけではなく、単に Perl が算術、比較、ビット単位演算子で整数演算をするというだけであることに注意してください。例えば、use integer の指定があっても、sqrt(2) とすると、 1.4142135623731 といった結果が返ってきます。

数値を使う場合、ビット単位演算子 (& | ^ ~ << >>) は常に整数の結果を生成します。 (但し "Bitwise String Operators" も参照して下さい。) しかし、それでも use integer は意味があります。デフォルトでは、これらの結果は符号なし整数として解釈されますが、 use integer が有効の場合は、符号付き整数として解釈されます。例えば、~0 は通常大きな整数の値として評価されます。しかし、use integer; ~0 は 2 の補数のマシンでは -1 になります。

浮動小数点数演算

use integer が整数演算を提供する一方、数を特定の桁で自動的に丸めたり切り捨てたりする機構はありません。数を丸めるには、sprintf() や printf() を使うのが一番簡単な方法です。 perlfaq4 を参照して下さい。

浮動小数点数は数学者が実数と呼ぶものの近似でしかありません。実数は浮動小数点より無限に続くので、多少角が丸められます。例えば:

    printf "%.20g\n", 123456789123456789;
    #        produces 123456789123456784

浮動小数点数が等しいかどうかをちょうど同じかどうかで比較するのはよい考えではありません。以下に、二つの浮動小数点数が指定された桁まで等しいかどうかを比較する(比較的重い)次善の策を示します。この問題に関するより厳密な扱いについては Knuth, volume II を参照して下さい。

    sub fp_equal {
        my ($X, $Y, $POINTS) = @_;
        my ($tX, $tY);
        $tX = sprintf("%.${POINTS}g", $X);
        $tY = sprintf("%.${POINTS}g", $Y);
        return $tX eq $tY;
    }

POSIX モジュール(Perl 標準配布パッケージの一部) は ceil(), floor() 及びその他の数学関数や三角関数を実装しています。 Math::Complex モジュール(Perl 標準配布パッケージの一部)は実数と虚数の両方で動作する数学関数を定義しています。 Math::Complex は POSIX ほど効率的ではありませんが、POSIX は複素数は扱えません。

金融アプリケーションにおける丸めは深刻な影響を与える可能性があり、使用する丸めメソッドは指定された精度で行われるべきです。このような場合、Perl が使用するシステム丸めを信用せず、代わりに自分自身で丸め関数を実装するべきです。

より大きな数

標準の Math::BigInt, Math::BigRat, Math::BigFloat モジュールと bignum, bigint, bigrat プラグマは多倍長演算を提供し、演算子をオーバーロードしますが、これらは現在のところかなり遅いです。多少の領域とかなりの速度を犠牲にして、桁数が制限されていることによるありがちな落とし穴を避けることができます。

        use 5.010;
        use bigint;  # easy interface to Math::BigInt
        $x = 123456789123456789;
        say $x * $x;
    +15241578780673678515622620750190521

あるいは分数を使って:

        use 5.010;
        use bigrat;
        $x = 3/22;
        $y = 4/6;
        say "x/y is ", $x/$y;
        say "x*y is ", $x*$y;
        x/y is 9/44
        x*y is 1/11

(メモリと CPU 時間のみに依存する)無制限か固定の精度での計算ができるモジュールがいくつかあります。さらに外部 C ライブラリを使ってより速い実装を提供する非標準のモジュールもあります。

以下は短いですが不完全なリストです。

  Math::String           文字列を数値のように扱う
  Math::FixedPrecision   固定精度で計算する
  Math::Currency         通貨の計算用
  Bit::Vector            (C を使って)ビットベクタを速く操作する
  Math::BigIntFast       大きな数のための Bit::Vector のラッパー
  Math::Pari             Pari C ライブラリへのアクセスを提供する
  Math::Cephes           外部の Cephes C を使う(大きな数はなし)
  Math::Cephes::Fraction Cephes ライブラリを使った分数
  Math::GMP              これも外部 C ライブラリを使う
  Math::GMPz             libgmp の大きな整数へのもう一つのインターフェース
  Math::GMPq             libgmp の分数へのインターフェース
  Math::GMPf             libgmp の浮動小数点のインターフェース

うまく選んでください。