NAME

perldata - Perl のデータ型

DESCRIPTION

変数名

Perl には、スカラ、スカラの配列、「ハッシュ」とも呼ばれるスカラの連想配列という 3 つの組み込みデータ型があります。スカラは単一の(任意の長さの)文字列(利用可能メモリによってのみ制限されます)か、数値か、何かへのリファレンス(これは perlref で議論します)のいずれかです。通常の配列は 0 を基点とする数値で添え字づけされるスカラの順序付きリストです。ハッシュ配列は、文字列のキーのインデックスと、それに結び付けられたスカラ値の、順序のない集合です。

値は通常、名前もしくは名前付きのリファレンスを通して参照されます。名前の最初にある文字は、その名前がどのような構造のデータを参照しているのかを区別します。名前の残りの部分は、参照する値を特定するものです。通常、この名前は一つの 識別子、つまり、英字か下線から始まってそれに英字、下線、数字が続く文字列のことです。一部のケースにおいては ::(あるいはやや古風な ') で分けられた識別子の並びであってもかまいません; これの最後のもの以外の名前は、最後の部分にある識別子をその名前空間に置くためのパッケージの名前として解釈されます(詳細は "Packages" in perlmod を参照してください)。識別子に関するより深い議論に関しては、"Identifier parsing" を参照してください。リファレンスを生成する式の単純な識別子を、実行時に値に置き換えることも可能です。これはこの文書の後の部分と、perlref に詳細な説明があります。

Perl はこれらの規則に従っていない名前を持っている組み込みの変数も持っています。これらは変わった名前をもっているので、あなたが使った普通の変数との間で間違って衝突することがありません。正規表現の括弧づけされた部分(parenthesized parts)の文字列は $ の後に数字だけが続いている名前で保存されます( perlop と perlre を参照してください)。それに加え、Perl の内部的な動作に対する窓を開けている幾つかの特殊変数が、句読点文字と制御文字を含む名前を持っています。これらは perlvar で文書化されています。

スカラ値の参照は、配列やハッシュの一要素であるスカラを参照する場合でも、常に名前に '$' を付けます。シンボル '$' は文法的に英単語 "the" のように働き、単一の値が想定されていることを示しています。

    $days               # the simple scalar value "days"
    $days[28]           # the 29th element of array @days
    $days{'Feb'}        # the 'Feb' value from hash %days
    $#days              # the last index of array @days

配列全体(および配列やハッシュのスライス)は '@' で示します; これは英単語での "these" や "those" のように働き、複数の値が想定されていることを示します。

    @days               # ($days[0], $days[1],... $days[n])
    @days[3,4,5]        # same as ($days[3],$days[4],$days[5])
    @days{'a','c'}      # same as ($days{'a'},$days{'c'})

ハッシュ全体は '%' で示します:

    %days               # (key1, val1, key2, val2 ...)

さらに、サブルーチンは名前の前に '&' を付けて示しますが、英語でもほとんど使われなくなった "do" のように、曖昧にならなければ、省略できます。シンボルテーブルのエントリは、名前に '*' を付けて示すことができますが、 (気にする気があっても :-)まだ気にする必要はありません。

変数のすべての型には、いくつかの変数でない識別子と同様、それぞれの名前空間があります。これは、衝突を心配せずに、スカラ変数、配列、ハッシュ -- さらにファイルハンドル、ディレクトリハンドル、サブルーチン名、フォーマット名、ラベルに、同じ名前を付けることができることを意味します。つまり、$foo と @foo は 2 つの異なる変数であるということです。また、$foo[1] は @foo の一部であって、$foo の一部ではありません。少々奇妙に思えるかもしれませんが、それで良いのです; 奇妙なのですから。

変数の参照は、いつも '$'、'@'、'%' で始まりますから、「予約」語は、変数名としては、本当の意味で予約されているわけではありません。しかしながら、先頭に特別な文字を付けない、ラベルやファイルハンドルとしては、 予約されている ことになります。たとえば、"log" といった名前のファイルハンドルを使うことはできません。ヒント: open(log,'logfile') などではなく、 open(LOG,'logfile') としてください。大文字のファイルハンドルを使えば、読みやすくもなりますし、将来に渡る予約語との衝突も避けられます。大文字と小文字は 区別されます から、"FOO"、"Foo"、"foo" は、すべて違う名前です。英字と下線で始まる名前は、名前の一部に数字や下線を含むことができます。

そのような英数字の名前を、適切な型へのリファレンスを返す式で置き換えることも可能です。詳しくは、perlref を参照してください。

数字で始まる名前には、数字しか含めることができません。英字、下線、数字、キャレット(制御文字)以外の文字で始まる名前は、 $% や $$ のように 1 文字に限定されます。 (これら 1 文字の名前の多くは、Perl があらかじめ意味を定めています。たとえば、$$ はカレントプロセスのプロセス ID を示します。)

識別子のパース

Perl 5.18 まで、何が正当な識別子かに関する実際の規則は少し曖昧でした。しかし、一般的に、ここで定義されたものは過去のバージョンの Perl でも動作するはずです; しかし、逆 -- 以前のバージョンで動作していたエッジケースでここで定義されていないもの -- はおそらく新しいバージョンでは動作しません。重要な補足として、後述するものは Perl ソースコードに現れる裸の識別子のみに適用されるもので、遥かに制限の少ないシンボリックリファレンスで導入される識別子には適用されないことに注意してください。 use utf8; プラグマが有効な場合、以下の規則が適用されます:

    / (?[ ( \p{Word} & \p{XID_Start} ) + [_] ])
      (?[ ( \p{Word} & \p{XID_Continue} ) ]) *    /x

つまり、「開始」文字に引き続いて任意の数の「継続」文字です。 Perl は識別子の全ての文字について \w にマッチングすることを要求します (これにより一部の問題を回避します); また、Perl は下線で始まる識別子も受け入れます。

use utf8 が有効でない場合、ソースは ASCII + 128 の追加の制御文字として扱われ、識別子は以下にマッチしなければなりません

    / (?aa) (?!\d) \w+ /x

つまり、 ASCII の範囲の任意の単語文字で、先頭が数字でないものです。

Perl には二つのパッケージセパレータがあります: コロン二つ (::) とシングルクォート (') です。通常の識別子はコロン二つで開始または終了でき、コロン二つで区切られた複数の部分を含むことができます。シングルクォートは似たような規則を持ちますが、識別子の末尾に付けるのは不正であるという例外があります: つまり、$'foo と $foo'bar は正当ですが、 $foo'bar' は違います。

さらに、識別子の先頭に印 (sigil) が付いている場合 -- つまり、識別子が変数名の一部の場合 -- 識別子はオプションで中かっこで囲むこともできます。

コロン二つとシングルクォートを混ぜることは出来ますが、シングルクォートはコロンの後に来なければなりません: $::::'foo と $foo::'bar は正当ですが、 $::'::foo と $foo'::bar は違います。

まとめると、基本識別子にマッチングする文法は

 /
  (?(DEFINE)
      (?<variable>
          (?&sigil)
          (?:
                  (?&normal_identifier)
              |   \{ \s* (?&normal_identifier) \s* \}
          )
      )
      (?<normal_identifier>
          (?: :: )* '?
           (?&basic_identifier)
           (?: (?= (?: :: )+ '? | (?: :: )* ' ) (?&normal_identifier) )?
          (?: :: )*
      )
      (?<basic_identifier>
        # is use utf8 on?
          (?(?{ (caller(0))[8] & $utf8::hint_bits })
              (?&Perl_XIDS) (?&Perl_XIDC)*
            | (?aa) (?!\d) \w+
          )
      )
      (?<sigil> [&*\$\@\%])
      (?<Perl_XIDS> (?[ ( \p{Word} & \p{XID_Start} ) + [_] ]) )
      (?<Perl_XIDC> (?[ \p{Word} & \p{XID_Continue} ]) )
  )
 /x

一方、特殊識別子はこの規則に従いません; ほとんどの部分において、このカテゴリの全ての識別子は Perl によって特別な意味を与えられています。これらは特別なパース規則を持つので、一般的に完全に定義できません。これらには四つの形式があります:

A sigil, followed solely by digits matching \p{POSIX_Digit}, like $0, $1, or $10000.: (印に引き続いて $0, $1, $10000 のように \p{POSIX_Digit} にマッチングするもの)
A sigil, followed by either a caret and a single POSIX uppercase letter, like $^V or $^W, or a sigil followed by a literal control character matching the \p{POSIX_Cntrl} property. Due to a historical oddity, if not running under use utf8, the 128 extra controls in the [0x80-0xff] range may also be used in length one variables. The use of a literal control character is deprecated. Support for this form will be removed in a future version of perl.: (印に引き続いて $^V や $^W のようにキャレットと単一の POSIX 大文字、または印に引き続いて \p{POSIX_Cntrl} 特性にマッチングするリテラルな制御文字。歴史的なおかしなことにより、use utf8 で実行されていない場合、 [0x80-0xff] の範囲の 128 の追加の制御文字も 1 文字変数として使われるかもしれません。リテラルな制御文字の使用は廃止予定です。この形式の対応は将来のバージョンの perl で削除される予定です。)
Similar to the above, a sigil, followed by bareword text in brackets, where the first character is either a caret followed by an uppercase letter, or a literal control, like ${^GLOBAL_PHASE} or ${\7LOBAL_PHASE}. The use of a literal control character is deprecated. Support for this form will be removed in a future version of perl.: (前述と同様に、印に引き続いて中かっこで囲まれた裸の単語; その最初の文字は ${^GLOBAL_PHASE} や ${\7LOBAL_PHASE} のようにキャレットに引き続いて大文字かリテラルな制御文字。リテラルな制御文字の使用は廃止予定です。この形式の対応は将来のバージョンの perl で削除される予定です。)
A sigil followed by a single character matching the \p{POSIX_Punct} property, like $! or %+.: ($! や %+ のように、印に引き続いて \p{POSIX_Punct} 特性にマッチングする単一の文字。)

Perl 5.20 から、変数名中のリテラルな制御文字は廃止予定です。

コンテキスト

Perl における演算や値の解釈は、その演算や値の置かれたコンテキストからの要求に依存する場合があります。このコンテキストというものには大きく二つあり、リストコンテキストとスカラコンテキストと呼ばれます。リストが要求されるコンテキストではリスト値を返し、そうでなければスカラ値を返すような演算も存在します。そのような演算については、ドキュメントでその演算に触れるときに付記しています。言い方を変えると、Perl では、ある種の演算が一つの値を返して欲しいか、複数の値を返して欲しいかによって多重定義されているということです。 "fish" や "sheep" といった、単複同形の英単語と似ているかもしれません。

逆に演算子は、その引数がスカラコンテキストかリストコンテキストのいずれかで解釈されるかを決めてしまいます。例えば、以下のようにすると:

    int( <STDIN> )

int 演算子は、自分の引数である <> 演算子がスカラコンテキストで評価されることを期待するため、STDIN から一行を読み出して int 演算子に渡します; それから、その行から整数値を取り出して返すことになります。これに対して、以下のようにすると:

    sort( <STDIN> )

sort 演算子は <> 演算子がリストコンテキストで評価されるために、 <> は STDIN から読める限り最後の行まで読み出して、そのリストを sort のルーチンに渡します; それから受け取った行のリストをソートし、その結果のリストが戻り値となります。

代入演算は少し特殊です; 代入では、右引数のコンテキストを決めるために左引数が使われます。スカラへの代入では、右側をスカラコンテキストで評価しますが、配列やハッシュに対する代入では、右側をリストコンテキストで評価することになります。リスト(あるいはスライス; 要するにリストですが)への代入も、右側をリストコンテキストで評価することになります。

use warnings プラグマや Perl の -w コマンドラインオプションを使うと、「無効コンテキスト」での定数や関数の無意味な使用について警告が出ます。無効コンテキストは、"fred"; や getpwuid(0); のみを含む文のように、単に値が捨てられることを意味します。リストコンテキストで呼び出されたかどうかを考慮する関数にとっては、これはやはりスカラコンテキストとして扱われます。

ユーザが定義するサブルーチンは、自分が無効、スカラ、リストのどのコンテキストで呼ばれたかを意識することができます。しかし、多くのサブルーチンでは意識する必要もないでしょう。スカラ値とリストは自動的にリストに展開されるからです。関数が呼び出されたコンテキストを動的に識別する方法については、 "wantarray" in perlfunc を参照してください。

スカラ値

Perlにおける全てのデータは、スカラか、スカラの配列か、スカラのハッシュとなります。スカラは、数値、文字列、リファレンスのいずれか一つの値を保持します。一般的には、ある種類から他の種類への変換は透過的です。スカラは直接複数の値を保持することはできませんが、複数の値を保持している配列やハッシュに対するリファレンスを保持することができます。

スカラは何かであることを宣言する必要はありません。あるスカラ変数が、「文字列」型、「数値」型、「リファレンス」型、あるいはその他の型であるように宣言する方法はありません。これは、スカラ、スカラを返す操作の自動変換はその呼び出し元が文字列、数値、リファレンスのどれを対象にしているのかを気にする必要がない(実際は、気にすることができない)ためです。 Perl はスカラが文字列、数値、リファレンス (オブジェクトを含みます)を保持することのできる文脈的多態言語 (contextually polymorphic language) です。文字列と数値は、ほとんど全ての目的に対して適当であるように思われますが、リファレンスは組み込みのリファレンスカウントとデストラクタとを持っている、キャストすることのできない強く型付けされたポインタです。

スカラ値は、その値が未定義値か空文字列か数値の 0 (あるいは同値な文字列 "0") の場合には、真偽値の偽として扱われ、それ以外のもの全てでは真として扱われます。真偽値コンテキストは、単に文字列や数値への変換が行われなかった特別なスカラコンテキストとして扱われます。

空文字列には、実は定義済みと未定義の 2 種類があります。定義済みの値は "" のような、単に長さ 0 の文字列です。未定義の空文字列は、エラーがあったときや、ファイルの終わりに達したとき、初期化していない変数や配列やハッシュの要素を参照したときなど、何かに対する実際の値が存在しないことを示します。初期のバージョンの Perl では、未定義のスカラは、最初に定義済みであるかのように使ったときに定義済みとなり得ますが、これはもはや、 perlref で説明している自動有効化が起きる稀な場合を除いて、起こりません。値が定義済みであるかどうかを調べるために defined() 演算子を使うことができ(これは配列やハッシュに対しては無意味です)、未定義値を生成するために undef() 演算子を使えます。

与えられた文字列が正当な非ゼロの数値であるかどうかを確かめるには、数値の 0 か lexical な "0" に対してテストすれば十分な場合もあります (もっともこれは警告が有効ならノイズを引き起こします)。数値ではない文字列は、awk のように 0 とはみなすことはしないからです:

    if ($str == 0 && $str ne "0")  {
        warn "That doesn't look like a number";
    }

このメソッドは最良です; なぜなら、さもなければ NaN や Infinity のような IEEE 記法の属性を扱えないからです。その他の場合、データが数値であるかどうかを検査するためには、 POSIX::strtod() 関数を呼び出すか、(perlre に記述されているように) 正規表現を使って文字列を調べるとよいでしょう。

    warn "has nondigits"        if     /\D/;
    warn "not a natural number" unless /^\d+$/;             # rejects -3
    warn "not an integer"       unless /^-?\d+$/;           # rejects +3
    warn "not an integer"       unless /^[+-]?\d+$/;
    warn "not a decimal number" unless /^-?\d+\.?\d*$/;     # rejects .2
    warn "not a decimal number" unless /^-?(?:\d+(?:\.\d*)?|\.\d+)$/;
    warn "not a C float"
        unless /^([+-]?)(?=\d|\.\d)\d*(\.\d*)?([Ee]([+-]?\d+))?$/;

配列の大きさはスカラ値です。配列 @days の大きさは、csh のように $#days を評価するとわかります。しかし、これは大きさではありません; 最後の要素に対する添え字になり、通常は 0 番目の要素があるので違う値になります。 $#days に代入を行なうと実際の配列の大きさも変化します。この方法で配列を小さくすると、見えなくなった部分の値は破壊されます。小さくした配列を再び大きくしても、以前存在した要素に対する前の値が回復することはありません。

大きくなるであろう配列をあらかじめ大きくしておくことで、ほんの少しだけ効率を向上させることもできます。最後の要素よりも後ろに離れた位置に代入を行なうことでも、配列を大きくすることができます。配列に空リスト () を代入すると、何も無い状態にまで切り詰められます。以下は等価です:

    @whatever = ();
    $#whatever = -1;

配列をスカラコンテキストで評価すると、配列の大きさが返されます。 (これはリストに対しては成り立たないことに注意してください; この場合には、C のカンマ演算子と同じように最後の値が返され、組み込み関数のように値を返すことはしません。) 以下の式は常に真となります:

    scalar(@whatever) == $#whatever + 1;

曖昧さをなくすために明示的に変換することを選ぶプログラマもいます:

    $element_count = scalar(@whatever);

ハッシュをスカラコンテキストで評価した場合、ハッシュが空のときにだけ偽が返されます。キー/値のペアが登録されていれば、真を返します; より正確には、返される値は使用しているエントリの数と、割り付けられているエントリの数を、スラッシュで区切った文字列です。これは、与えたデータに対して、Perl の内部のハッシュのアルゴリズムが、うまく動作しないかを確認するときくらいにしか使えませんが。たとえば、ハッシュに 10,000 個のものを入れ、%HASH をスカラコンテキストで評価したときに 1/16 が得られれば、16 のうち一つのエントリだけが使われ、おそらくそこに 10,000個すべてが入っていることを意味します。これはほとんど起こりそうもないことです。 tie したハッシュがスカラコンテキストで評価されると、 (FIRSTKEY へのフォールバックと) SCALAR メソッドが呼び出されます。

keys() 関数に代入をすることによって、ハッシュのためにあらかじめスペースを割り当てることができます。その際に、割り当てる要素の数はその数値以上で最小の 2 のべき乗に丸められます:

    keys(%users) = 1000;                # 1024 要素割り付ける

スカラ値のコンストラクタ

数値リテラルは、以下の浮動小数点数と整数の形式で示されます:

    12345
    12345.67
    .23E-10             # a very small number
    3.14_15_92          # a very important number
    4_294_967_296       # underscore for legibility
    0xff                # hex
    0xdead_beef         # more hex   
    0377                # octal (only numbers, begins with 0)
    0b011011            # binary

数値リテラルを読みやすくするために、数字の間に下線を使えます (しかし連続した複数の下線は使えません: 23__500 は不正です; 23_500 は妥当です)。例えば、(Unix 式のモード引数のために、0b110_100_100 のように) 2 進数を 3 桁ごとにグループ分けしたり、(ニブルを表現するために、0b1010_0110 のように) 4 桁ごとにグループ分けしたり、あるいはその他の方法でグループ分け出来ます。

文字列リテラルは、シングルクォートかダブルクォートで区切られます。これらは、標準 Unix シェルのクォートと同じように扱われます: ダブルクォートの文字列リテラルでは、バックスラッシュの置換と変数の置換が行なわれ、シングルクォートの文字列では、 (\' と \\を除いて)これらの置換は行なわれません。普通の C 形式でのバックスラッシュの置換規則は、改行やタブを始め、ある種の変わった形式のためにも使われます。詳しくは "Quote and Quote-like Operators" in perlop を参照してください。

文字列リテラルの中で ('0xff' のように) 16 進、8 進、2 進で表現されたものは、その値が表すものに自動的に変換されることはありません。 hex() や oct() といった関数がそのための変換を行います。詳しくは "hex" in perlfunc と "oct" in perlfunc を参照してください。

また、文字列に直接、改行を埋め込むこともできます; つまり、文字列は、開始した行で終了する必要はないと言うことです。これは素晴らしいのですが、終了のクォートを付け忘れた場合には、次にクォート文字が見つかるまでの間、Perl はエラーを見つけることができなくなります; それは、スクリプト上でずっと先になるかもしれません。文字列中での変数の置換は、スカラ変数、配列、配列やハッシュのスライスに限定されています。 (言い換えると、$ や@ で始まる識別子か、それに大かっこで括った添え字をつけたものです。) 次のプログラムは "The price is $100." と印字します。

    $Price = '$100';    # not interpolated
    print "The price is $Price.\n";     # interpolated

Perl では二重展開は行われないので、$100 はそのままになります。

デフォルトでは、文字列に置換された浮動小数点数は小数点としてドット (".") を使います。 use locale が有効で、POSIX::setlocale() が呼び出されている場合、小数点として使われる文字は LC_NUMERIC ロケールによって影響を受けます。 perllocale と POSIX を参照してください。

いくつかのシェルと同じように、変数名の前後に中かっこを入れて、つながっている英数字(および下線)から切り離せます。変数を文字列に展開する時に、後に続くコロン 2 つやシングルクォートと変数名を分割する場合にもそうしなければなりません; さもなければパッケージのセパレータとして扱われるからです:

    $who = "Larry";
    print PASSWD "${who}::0:0:Superuser:/:/bin/perl\n";
    print "We use ${who}speak when ${who}'s here.\n";

中かっこなしでは、Perl は変数 $whospeak, $who::0, $who's を探します。後ろ二つは、(おそらく)存在しないパッケージ who の変数 $0 と $s になります。

実際には、そのような中かっこの内側にある単純な識別子は、強制的に文字列になります; ハッシュの添え字も同様です。どちらもクォートは必要ありません。先の例にあった、$days{'Feb'} は $days{Feb} のように書くことができ、自動的にクォートが仮定されます。しかし、添え字により複雑な何かを使っている場合には式として解釈されます。これは例えば、$version{2.0}++ は $version{2}++ と等価であり、 $version{'2.0'}++ ではないということを意味します。

バージョン文字列

v1.20.300.4000 の形のリテラルは、指定された序数を持つ文字からなる文字列としてパースされます。この形はv-文字列と呼ばれ、より読みにくい文字変換形式 "\x{1}\x{14}\x{12c}\x{fa0}" よりも読みやすい文字列を構成する方法を提供します。これは Unicode 文字列を表現するためや、バージョン「番号」を文字列比較演算子 cmp, gt, lt などを使って比較するときに便利です。もしリテラルに 2 つ以上のドットがある場合、先頭の v は省略できます。

    print v9786;              # prints SMILEY, "\x{263a}"
    print v102.111.111;       # prints "foo"
    print 102.111.111;        # same

このようなリテラルは require と use でバージョンチェックを行う場合に受け入れられます。 v-文字列を IPv4 アドレスに使うと、Socket パッケージの inet_aton()/inet_ntoa() ルーチンも使わない限り、移植性がないことに注意してください。

Perl 5.8.1 から、 (v65 のような) 単一の数値のv-文字列は => 演算子 (ハッシュキーとハッシュの値を分けるために普通使われます) の前では v-文字列ではないことに注意してください; これはリテラル文字列 ('v65') として扱われます。これは Perl 5.6.0 から Perl 5.8.0 ではv-文字列でしたが、これはよいことよりも大きな混乱と破壊を招きました。 v65.66 や 65.66.67 のような複数の数値の v-文字列は常にv-文字列であり続けます。

特殊なリテラル

__FILE__, __LINE__, __PACKAGE__ という特殊なリテラルはそれぞれ、カレントのファイル名、行番号、パッケージ名を表わします。 __SUB__ は現在のサブルーチンへのリファレンスを与えます。これらは独立したトークンとしてのみ用いられます; 文字列中に展開されることはありません。 (空の package; 指示子によって)カレントパッケージが存在しない場合、 __PACKAGE__ は未定義値となります。 (しかし空の package; はバージョン 5.10 以降もはや対応していません。) サブルーチンの外側では、__SUB__ は未定義値です。 __SUB__ は 5.16 以降で、use v5.16 または use feature "current_sub" 宣言がある場合にのみ利用可能です。

二つの制御文字 ^D と ^Z、およびトークン __END__ と __DATA__ は、実際のファイルの終端より前にある論理的なスクリプトの終端を示すために使うことができます。これらの後にあるテキストは無視されます。

しかし、__DATA__ 以降のテキストはファイルハンドル PACKNAME::DATA を通して読み出すことができます; ここで PACKNAME は __DATA__ トークンに遭遇した時点でのカレントのパッケージ名です。ファイルハンドルは __DATA__ の後の行を指して開かれたままです。プログラムはここからデータを読み終わったら close DATA するべきです。 (これを開いたままにしておくと何らかの理由でモジュールが再読み込みされたときにファイルハンドルがリークするので、閉じておくのがより安全な慣例です。) __DATA__ が導入される前に書かれた古いスクリプトとの互換性のために、 __END__ は、スクリプト(但し require や do で読み込まれたファイルではないもの)のトップレベルでの __DATA__ のように振る舞い、ファイルの残りの内容は main::DATA でアクセス可能なままになります。

__DATA__ の詳細とそれをつかった例は SelfLoader を参照してください。 BEGIN ブロックでは、ファイルハンドル DATA から読み出せないことに注意してください; BEGIN ブロックはそれが見つかった時点で即実行されるので、 __DATA__(や __END__)トークンがどこにあるのかがわからないのです。

裸の単語

文法的に別の解釈ができない単語は、クォート文字列であるかのように扱われます。これは「裸の単語」(bareword) と呼ばれます。ファイルハンドルやラベルと同様に、小文字だけからなる裸の単語は将来、予約語とぶつかる危険があります; そのような単語があった場合、 use warnings プラグマや -w スイッチをつけることでPerl がそのような単語を指摘してくれます。 Perl は (識別子のような) 裸の単語をおそよ 250 文字に制限しています。将来のバージョンの Perl はこれらの恣意的な制限は取り除かれるでしょう。

裸の単語をなくして欲しいという人もいます。以下のようにすると:

    use strict 'subs';

サブルーチンコールと解釈できない裸の単語がコンパイル時にエラーとなります。この制約は囲っているブロックの終わりまで有効です。内側のブロックで no strict 'subs'と書くことで、この機能を撤回することもできます。

配列の展開

配列とスライスは、ダブルクォート文字列中で、要素を変数 <$"> ("use English;" が指定されていれば $LIST_SEPARATOR) 中に示す区切り文字(デフォルトはスペース) でつなげて展開されます。以下は等価です:

    $temp = join($", @ARGV);
    system "echo $temp";

    system "echo @ARGV";

検索パターン (ここでも、ダブルクォートのような置換が行なわれます) の中では、解釈する上で不幸な曖昧さがあります: /$foo[bar]/ は、/${foo}[bar]/ と解釈される(この場合 [bar]は、正規表現の文字クラス) のでしょうか、それとも /${foo[bar]}/ と解釈される (この場合 [bar] は、配列 @foo の添え字) のでしょうか? @foo が他に存在しない場合には、明らかに文字クラスとなります。 @foo が存在すれば、Perl が [bar] の意味に見当をつけますが、たいてい正しい解釈をします。もし見当があたっていないときや偏執的にこだわりたい時には、上に書いたように中かっこを付けて強制的に解釈のしかたを決めることができます。

以前ここにあった、ヒアドキュメントの使い方に関する情報を探しているのなら、その情報は "Quote and Quote-like Operators" in perlop に移動しました。

リスト値のコンストラクター

リスト値は、個々の値をコンマで区切って (必要に応じて括弧で括って) 示されます:

    (LIST)

リスト値が要求されていないコンテキストでは、リストリテラルのようにみえる値の場合は、C のコンマ演算子の場合のように、単に最後の要素の値が使われます。例えば:

    @foo = ('cc', '-E', $bar);

これはリスト値全体を配列 @foo に代入しますが:

    $foo = ('cc', '-E', $bar);

これは変数 $bar の値をスカラ変数 $foo に代入します。本物の配列がスカラコンテキストで評価されたときの値は、その配列の大きさとなります; 以下の例では、$foo に 3 という値が代入されます:

    @foo = ('cc', '-E', $bar);
    $foo = @foo;                # $foo gets 3

リストリテラルの閉じ括弧の前には余分にコンマを置いてかまいませんので、以下のように書くことができます:

    @foo = (
        1,
        2,
        3,
    );

配列への代入にヒアドキュメントを使うには、要素毎に 1 行となり、以下のような手法が使えます:

    @sauces = <<End_Lines =~ m/(\S.*\S)/g;
        normal tomato
        spicy tomato
        green chile
        pesto
        white wine
    End_Lines

リストの中にリストがある場合には、自動的に展開されてしまいます。これは、外側のリストが評価されると、リストの個々の要素がリストコンテキストで評価され、その結果のリスト値の個々の値が、元のリストの要素であるかのように展開されるのです。つまり、リストの中では配列もハッシュも、その性質が現れてきません -- 以下のリストは

    (@foo,@bar,&SomeSub,%glarch)

@foo のすべての要素の後に @bar のすべての要素を続け、その後に SomeSub というサブルーチンが返すすべての要素を続け、最後に %glarch のキー/値のペアを続けたものを要素として持ちます。展開 されない リストのリファレンスを作るためには、perlref を参照してください。

空リストは () で表わされます。リスト中で空リストを展開しても何も起こりません。つまり、 ((),(),()) は () と等価です。同様に、要素のない配列を展開することは、その場所に何も展開しなかったのと同じことになります。

この展開は、開きかっこと閉じかっこは(優先順位のための必要性がなければ) 省略可能であるということと、リスト中に複数のカンマがあっても文法的に有効なので、リストの最後に追加のカンマをつけられるということを組み合わせたものです。リスト 1,,3 は 2 つのリスト 1, と 3 の結合であり、 1 つ目のリストはオプションのカンマで終わっています。 1,,3 は (1,),(3) で 1,3 です (そして同様に 1,,,3 は (1,),(,),3 で 1,3 です、以下同様。) この暗黒面を使うよう勧めているわけではありません。

リスト値にも通常の配列と同じように、添え字をつけることができます。リストには、曖昧さをなくすために、括弧を付けなくてはなりません。例えば:

    # Stat returns list value.
    $time = (stat($file))[8];

    # SYNTAX ERROR HERE.
    $time = stat($file)[8];  # OOPS, FORGOT PARENTHESES

    # Find a hex digit.
    $hexdigit = ('a','b','c','d','e','f')[$digit-10];

    # A "reverse comma operator".
    return (pop(@foo),pop(@foo))[0];

リスト自身を構成する個々の要素すべてに代入が許される場合にのみ、全体のリストに代入を行なうことができます:

    ($a, $b, $c) = (1, 2, 3);

    ($map{'red'}, $map{'blue'}, $map{'green'}) = (0x00f, 0x0f0, 0xf00);

この例外として、リストにundefを代入することもできます。これは関数の戻り値の一部を捨て去るのに便利です:

    ($dev, $ino, undef, undef, $uid, $gid) = stat($file);

スカラコンテキスト中のリスト代入は、代入の右辺にある式によって生成された要素の数を返します:

    $x = (($foo,$bar) = (3,2,1));       # set $x to 3, not 2
    $x = (($foo,$bar) = f());           # set $x to f()'s return count

これはブールコンテキストでリストの代入をしたいときに便利です; なぜなら、ほとんどのリスト関数は終了時に空リストを返すからです; これは代入が 0 を生成したときには、偽と解釈されます。

これはまた、関数の実行や操作の処理をリストコンテキストで行い、それからそれを空リストにからすからコンテキストでの代入を行うことで返り値の数を数えるための便利な慣用法のもととなります。例えば、以下のコードは:

    $count = () = $string =~ /\d+/g;

$string の中で見つかった数字のグループの数を $count に設定します。これは、(値が空リストに代入されているので)パターンマッチングはリストコンテキストで行われ、従って文字列での全てのマッチした部分のリストが返されるために起こります。スカラコンテキストでのリスト代入は要素数(ここでは、マッチしたパターンの数)に変換され、それが $count に代入されます。単に以下のようにしても:

    $count = $string =~ /\d+/g;

うまく動かないことに注意してください; スカラコンテキストでのパターンマッチングはマッチした数ではなく、単に真か偽を返すからです。

リスト代入の最後の要素は、配列やハッシュでもかまいません:

    ($a, $b, @rest) = split;
    my($a, $b, %rest) = @_;

実際は、リストの任意の要素として配列を使うことができますが、リスト中の最初の配列が、右辺の値をすべて取り込んでしまうため、それ以降のものは未定義になります。これは、my() や local() では有用かもしれません。

ハッシュはキーと値と解釈される値のペアとなるリストリテラルを使って初期化されます:

    # same as map assignment above
    %map = ('red',0x00f,'blue',0x0f0,'green',0xf00);

しばしば、リストリテラルと名前付きの配列は互いに交換可能ですが、ハッシュの場合はそうではありません。通常の配列がハッシュとしてリスト値で添え字づけできないのと同様に、リスト値を使って添え字づけすることはできません。同様に、その一部として別のリストを含むハッシュ(パラメーターリストや関数の戻り値リストを含みます)は常に平坦なキー/値のペアにされます。これはリファレンスをきちんと使う理由です。

key/value のペアの間に => 演算子を使うと読みやすくなります。 => 演算子は実質、見た目に判別しやすいカンマ演算子でありますが、その左側にあるオペランドが正当な単純な識別子であるような裸の単語であるときに、それを文字列として解釈するようになっています。 => は、2 つのコロンを含むような複合識別子はクォートしません。これは、ハッシュの初期化を格好よいものにします:

    %map = (
                 red   => 0x00f,
                 blue  => 0x0f0,
                 green => 0xf00,
   );

あるいは、レコードとして使うハッシュリファレンスを初期化するために使います:

    $rec = {
                witch => 'Mable the Merciless',
                cat   => 'Fluffy the Ferocious',
                date  => '10/31/1776',
    };

複雑な関数のために名前付きパラメータによる呼び出しを使うためにも使えます:

   $field = $query->radio_group(
               name      => 'group_name',
               values    => ['eenie','meenie','minie'],
               default   => 'meenie',
               linebreak => 'true',
               labels    => \%labels
   );

ハッシュでは順番に意味がないので、初期化の順序にも意味はないということに注意してください。出力の順序を変える方法の例は、"sort" in perlfunc を参照してください。

ハッシュの初期化リストにあるキーが複数回現れた場合、最後のものが勝ちます:

    %circle = (
                  center => [5, 10],
                  center => [27, 9],
                  radius => 100,
                  color => [0xDF, 0xFF, 0x00],
                  radius => 54,
    );

    # same as
    %circle = (
                  center => [27, 9],
                  color => [0xDF, 0xFF, 0x00],
                  radius => 54,
    );

これは上書き可能な設定デフォルトの提供に使えます:

    # values in %args take priority over %config_defaults
    %config = (%config_defaults, %args);

添え字

配列は、ドル記号 ($)、(先頭の @ なしの)配列名、大かっこで囲われた添え字、の順で指定することで一度に一つのスカラにアクセスできます。例えば:

    @myarray = (5, 50, 500, 5000);
    print "The Third Element is", $myarray[2], "\n";

配列の添え字は 0 から始まります。負数の添え字は後ろから値を取り出します。前述の例では、$myarray[-1] は 5000 となり、$myarray[-2] は 500 となります。

ハッシュの添え字も同様ですが、大かっこの代わりに中かっこを使います。例えば:

    %scientists = 
    (
        "Newton" => "Isaac",
        "Einstein" => "Albert",
        "Darwin" => "Charles",
        "Feynman" => "Richard",
    );

    print "Darwin's First Name is ", $scientists{"Darwin"}, "\n";

リストの一つの要素を取り出すためにリストに添え字付けすることもできます:

    $dir = (getpwnam("daemon"))[7];

多次元配列のエミュレーション

多次元配列はハッシュをリストで添え字付けすることでエミュレートされます。リストの要素は添え字セパレータで結合されます ("$;" in perlvar 参照)。

    $foo{$a,$b,$c}

これは以下と等価です

    $foo{join($;, $a, $b, $c)}

デフォルトの添え字セパレータは "\034" で、awk の SUBSEP と同じです。

スライス

スライスは、添え字のリストを使ってリスト、配列、ハッシュの複数の要素に同時にアクセスします。これはそれぞれの要素を個々のスカラ値のリストとして扱うより便利です。

    ($him, $her)   = @folks[0,-1];              # array slice
    @them          = @folks[0 .. 3];            # array slice
    ($who, $home)  = @ENV{"USER", "HOME"};      # hash slice
    ($uid, $dir)   = (getpwnam("daemon"))[2,7]; # list slice

変数のリストに代入できるので、配列やハッシュのスライスにも代入できます。

    @days[3..5]    = qw/Wed Thu Fri/;
    @colors{'red','blue','green'} 
                   = (0xff0000, 0x0000ff, 0x00ff00);
    @folks[0, -1]  = @folks[-1, 0];

前述の代入は以下と完全に等価です:

    ($days[3], $days[4], $days[5]) = qw/Wed Thu Fri/;
    ($colors{'red'}, $colors{'blue'}, $colors{'green'})
                   = (0xff0000, 0x0000ff, 0x00ff00);
    ($folks[0], $folks[-1]) = ($folks[-1], $folks[0]);

スライスを変更すると、スライスした元の配列やハッシュを変更するので、 foreach 構造は配列やハッシュの値の一部 -- あるいは全部 -- を置き換えます。

    foreach (@array[ 4 .. 10 ]) { s/peter/paul/ } 

    foreach (@hash{qw[key1 key2]}) {
        s/^\s+//;           # trim leading whitespace
        s/\s+$//;           # trim trailing whitespace
        s/(\w+)/\u\L$1/g;   # "titlecase" words
    }

空リストのスライスはやはり空リストです。従って:

    @a = ()[1,0];           # @a has no elements
    @b = (@a)[0,1];         # @b has no elements

しかし:

    @a = (1)[1,0];          # @a has two elements
    @b = (1,undef)[1,0,2];  # @b has three elements

より一般的に、リストの末尾を越えたインデックスのみの場合、空リストを生成します:

    @a = (1)[  1,2];        # @a has no elements
    @b = (1)[0,1,2];        # @b has three elements

これを使うと、空リストが返ったら終了するループを簡単に書けます:

    while ( ($home, $user) = (getpwent)[7,0]) {
        printf "%-8s %s\n", $user, $home;
    }

この文書で前述したように、リスト代入のスカラ評価は、代入の右側の要素の数です。空リストは要素を含まないので、パスワードファイルを読み込み終わると、結果は 2 ではなく 0 になります。

スカラコンテキストでのスライスはスライスの最後の要素を返します。

    @a = qw/first second third/;
    %h = (first => 'A', second => 'B');
    $t = @a[0, 1];                  # $t is now 'second'
    $u = @h{'first', 'second'};     # $u is now 'B'

もし、なぜここでハッシュスライスに '%' ではなく '@' を使うのかについて混乱するなら、次のように考えてみてください。かっこの種類(大かっこか中かっこか)は、見ているものが配列かハッシュかをつかさどっています。一方、配列やハッシュの先頭の記号('$' か '@') は、返ってくるものが単一の値(スカラ)か、複数の値(リスト)かを示しています。

キー/値のハッシュスライス

Perl 5.20 から、% シンボルでのハッシュスライス操作は、単に値ではなくキー/値の組のリストを返すスライス操作の亜種です。

    %h = (blonk => 2, foo => 3, squink => 5, bar => 8);
    %subset = %h{'foo', 'bar'}; # key/value hash slice
    # %subset is now (foo => 3, bar => 8)

しかし、このようなスライスの結果は、ローカル化、削除、代入での使用はできません。それ以外では @ シンボルを使ったハッシュスライスととても一貫性があります。

インデックス/値の配列スライス

キー/値ハッシュスライスと同様(Perl 5.20 から導入されましたが) % 配列スライス文法はインデックス/値の組を返します:

    @a = "a".."z";
    @list = %a[3,4,6];
    # @list is now (3, "d", 4, "e", 6, "g")

型グロブとファイルハンドル

Perl は 型グロブ と呼ばれる内部型を、シンボルテーブルエントリ全体を保持するために使っています。この型グロブの型接頭辞は * です; なぜなら、それが型全てを表すからです。これは関数に対してリファレンスを使って配列やハッシュを渡すために好んで使われていた方法でしたが、しかし、私たちは今では本当のリファレンスを持っていますから、型グロブを使う必要はほとんどありません。

最近の Perl での型グロブの主な用途は、シンボルテーブルのエイリアスを作るというものです。具体的には以下のようにします:

    *this = *that;

これは $this を $that のエイリアスにし、 @this を $that のエイリアスにし、%this を %that のエイリアスに、 &this を &that のエイリアスにし…のようにします。より安全にするにはリファレンスを使います。これは:

    local *Here::blue = \$There::green;

この例では $Here::blue を一時的に $There::green のエイリアスにしますが、 @Here::blue を $There::blue のエイリアスにはしませんし、同様に %Here::blue を %There::green のエイリアスにはしません。これに関するさらなる例については "Symbol Tables" in perlmod を参照してください。これは奇妙に思えるかもしれませんが、これがモジュールのインポート/エクスポートシステムの基盤となっているのです。

型グロブの別の用途には、関数にファイルハンドルを渡したり、新たなファイルハンドルを生成するというものがあります。もしファイルハンドルを保存するために型グロブを使う必要があるのなら、以下のようにします:

    $fh = *STDOUT;

あるいは、以下のように本当のリファレンスを使います:

    $fh = \*STDOUT;

関数中で間接的にファイルハンドルを使う例については perlsub を参照してください。

型グロブは local() 演算子を使ったローカルなファイルハンドルを作成するのにも使われます。それによって作成されたものはそれを囲むブロックが存在する間だけ存在しますが、呼び出し元へ返すことが可能です。例えば:

    sub newopen {
        my $path = shift;
        local  *FH;  # not my!
        open   (FH, $path)          or  return undef;
        return *FH;
    }
    $fh = newopen('/etc/passwd');

今では *foo{THING} 表記がありますから、型グロブはファイルハンドルの操作のために用いられることはそれほどではありませんが、ファイルハンドルやディレクトリハンドルを関数に対して渡したり、関数の外へ返すためにはまだ必要となります。これは *HANDLE{IO} は HANDLE が既にハンドルとして使われた場合にのみ動作するからです。言い換えると、*FH は新しいシンボルテーブルのエントリーを作成するために使わなければなりませんが、*foo{THING} を使うことはできません。疑わしい場合は、*FH を使ってください。

ファイルハンドルを作成できる全ての関数 (open(), opendir(), pipe(), socketpair(), sysopen(), socket(), and accept()) は、もし渡されたハンドルが初期化されていないスカラ変数の場合、無名ファイルハンドルを作成します。これにより、open(my $fh, ...) や open(local $fh,...) のような構文によって、他からのリファレンスがなければスコープの終わりに自動的に閉じられる便利なファイルハンドルを作ることができます。これは、以下の例のように、他に渡す必要があるファイルハンドルを開く時に型グロブを使う必要性を大きく減らします:

    sub myopen {
        open my $fh, "@_"
             or die "Can't open '@_': $!";
        return $fh;
    }

    {
        my $f = myopen("</etc/motd");
        print <$f>;
        # $f implicitly closed here
    }

代わりに初期化されたスカラ変数が使われると、結果は異なることに注意してください: my $fh='zzz'; open($fh, ...) は open( *{'zzz'}, ...) と等価です。このような動作を禁止するには use strict 'refs' を使ってください。

無名ファイルハンドルを作るもう一つの方法は Symbol モジュールか IO::Handle モジュールを使用するというものです。このモジュールは local() を使ったときのように同じ名前を隠してしまうようなことがないという利点があります。これを使った例は "open" in perlfunc の末尾を参照してください。