euc-jpNAME

perlopentut - Perl でいろんなものを開くためのチュートリアル

DESCRIPTION

Perl には、ファイルを開くための 2 つの単純な組み込みの手段があります: 利便性のためのシェル風の方法と、正確性のための C 風の方法です。 シェル風の方法には 2 引数と 3 引数があり、ファイル名の扱いに関して 異なった動作をします。 選択はあなた次第です。

シェル風に開く

Perl の open 関数は、シェルでのコマンドラインのリダイレクトをまねて 設計されています。 以下はシェルでの基本的な例です:

    $ myprogram file1 file2 file3
    $ myprogram    <  inputfile
    $ myprogram    >  outputfile
    $ myprogram    >> outputfile
    $ myprogram    |  otherprogram 
    $ otherprogram |  myprogram

そして以下はもう少し高度な例です:

    $ otherprogram      | myprogram f1 - f2
    $ otherprogram 2>&1 | myprogram -
    $ myprogram     <&3
    $ myprogram     >&4

上述のような方法に慣れているプログラマにとっては、Perl がシェルと事実上 同じ文法を使った親しんでいる構造に直接対応していることは 学ぶのが容易になります。

単純に開く

open 関数は 2 つの引数を取ります: 1 つめはファイルハンドルで、 2 つめは何を開くかとどう開くかで構成される単一の文字列です。 open は成功すると真を返し、失敗すると偽を返して特殊変数 $! に システムエラーを反映します。 指定されたファイルハンドルが以前に開かれていた場合は、暗黙の内に まず閉じられます。

例えば:

    open(INFO,      "datafile") || die("can't open datafile: $!");
    open(INFO,   "<  datafile") || die("can't open datafile: $!");
    open(RESULTS,">  runstats") || die("can't open runstats: $!");
    open(LOG,    ">> logfile ") || die("can't open logfile:  $!");

句読点が少ない方が好みなら、以下のようにも書けます:

    open INFO,   "<  datafile"  or die "can't open datafile: $!";
    open RESULTS,">  runstats"  or die "can't open runstats: $!";
    open LOG,    ">> logfile "  or die "can't open logfile:  $!";

いくつか気がつくことがあります。 まず、先頭の < は省略可能です。 省略されると、Perl はファイルを読み込みのために開きたいと仮定します。

最初の例は || 論理演算子を使っていて、二つめの例はより優先順位の低い or を使っていることにも注意してください。 後者の例で || を使うと、実際には以下のような意味になり

    open INFO, ( "<  datafile"  || die "can't open datafile: $!" );

あなたが望んでいるのと全く違うことになります。

他の注意するべき重要なこととしては、シェルと同様、ファイル名の前後の 空白は無視されることです。 これはよいことです; なぜなら、以下のものが違うことをすることは 望まないだろうからです:

    open INFO,   "<datafile"   
    open INFO,   "< datafile" 
    open INFO,   "<  datafile"

周りの空白を無視することは、ファイル名を別のファイルから読み込んで、 開く前に空白を取り除くのを忘れたときにも助けになります:

    $filename = <INFO>;         # oops, \n still there
    open(EXTRA, "< $filename") || die "can't open $filename: $!";

これはバグではありません、仕様です。 open はどのようにファイルを開くかを指定するのにリダイレクトの矢印を 使うことでシェルを真似ているので、ファイル名の周りの空白についても 同じように扱います。 行儀の悪い名前のファイルにアクセスするためには、 "Dispelling the Dweomer" を参照してください。

また、3 引数版の open もあって、これは特殊なリダイレクト文字を 独立した引数にしたものです:

    open( INFO, ">", $datafile ) || die "Can't create $datafile: $!";

この場合、開くファイル名は $datafile の実際の文字列なので、 $datafile に開くモードに影響を与える文字や、 2 引数版では吸収されるファイル名の先頭の空白が含まれているかどうかを 心配する必要はありません。 また、不必要な文字列変換が削減されるのもよいことです。

間接ファイルハンドル

open の最初の引数は、ファイルハンドルへのリファレンスにすることも出来ます。 perl 5.6.0 以降、引数が初期化されていない場合、Perl は 以下のように、自動的にファイルハンドルを作成して、それへのリファレンスを 最初の引数に設定します:

    open( my $in, $infile )   or die "Couldn't read $infile: $!";
    while ( <$in> ) {
        # do something with $_
    }
    close $in;

間接ファイルハンドルは、名前空間管理をより容易にします。 ファイルハンドルは現在のパッケージに対してグローバルなので、 二つのサブルーチンが INFILE を開こうとすると衝突します。 二つの関数が my $infil のように間接ファイルハンドルで開いていると、 衝突は発生せず、将来の衝突を気にする必要もありません。

もう一つの便利は振る舞いとして、間接ファイルハンドルは、それに対する 参照がなくなったとき、自動的に閉じます:

    sub firstline {
        open( my $in, shift ) && return scalar <$in>;
        # no close() required
    }

間接ファイルハンドルは、サブルーチンとのファイルハンドルの受け渡しも 容易にします:

    for my $file ( qw(this.conf that.conf) ) {
        my $fin = open_or_throw('<', $file);
        process_conf( $fin );
        # no close() needed
    }

    use Carp;
    sub open_or_throw {
        my ($mode, $filename) = @_;
        open my $h, $mode, $filename
            or croak "Could not open '$filename': $!";
        return $h;
    }

パイプを開く

C では、標準 I/O ライブラリを使ってファイルを開きたいときは fopen を 使いますが、パイプを開くときには popen 関数を使います。 しかし、シェルでは、単に違うリダイレクト文字を使います。 これは Perl の場合にも当てはまります。 open 呼び出しは同じままです -- 単にその引数が変わります。

先頭の文字がパイプ記号の場合、open は新しいコマンドを準備して、 そのコマンドへと導かれる書き込み専用のファイルハンドルを開きます。 これによって、あなたがこのハンドルに書き込んだものがコマンドの 標準入力に渡されるようになります。 例えば:

    open(PRINTER, "| lpr -Plp1")    || die "can't run lpr: $!";
    print PRINTER "stuff\n";
    close(PRINTER)                  || die "can't close lpr: $!";

末尾の文字がパイプの場合、新しいコマンドを準備して、 そのコマンドから導かれる読み込み専用のファイルハンドルを開きます。 これにより、そのコマンドが標準出力にしたものはなんでも読み込み用の ファイルハンドルに現れます。 例えば:

    open(NET, "netstat -i -n |")    || die "can't fork netstat: $!";
    while (<NET>) { }               # do something with input
    close(NET)                      || die "can't close netstat: $!";

存在しないコマンドに対してパイプを開こうとすると何が起こるでしょうか? 可能なら、Perl は失敗を検出していつも通り $! をセットします。 しかし、もしコマンドに「メタ文字」と呼ばれる >* のような 特殊シェル文字が含まれていると、Perl はコマンドを直接実行しません。 その代わりに、Perl はシェルを実行し、それからコマンドを 実行しようとします。 これは、エラーを受け取るのはシェルであることを意味します。 このような場合、open 呼び出しは、たとえ Perl がシェルを実行できなかった 場合でも、失敗を示すだけです。 これを扱う方法については、 "How can I capture STDERR from an external command?" in perlfaq8 を 参照してください。 perlipc にも説明があります。

双方向パイプを開きたい場合は、IPC::Open2 ライブラリが使えます。 "Bidirectional Communication with Another Process" in perlipc を 参照してください。

perl-5.6.x から、シェルに頼らずにコマンドライン引数を基にしてプロセスを 実行するパイプオープンが導入されました。 (system(@LIST) 記法と同様です。) これは 1 引数のパイプコマンドを実行するより安全で高速ですが、特殊シェル 構文は使えません。 (また、Microsoft Windows, Mac OS Classic, RISC OS でも対応していません。)

以下は open '-|' の例で、ランダムな Unix おみくじを大文字で表示します:

    my $collection = shift(@ARGV);
    open my $fortune, '-|', 'fortune', $collection
        or die "Could not find fortune - $!";
    while (<$fortune>)
    {
        print uc($_);
    }
    close($fortune);

そしてこれは open '|-' パイプを lpr に送ります:

    open my $printer, '|-', 'lpr', '-Plp1'
        or die "can't run lpr: $!";
    print {$printer} "stuff\n";
    close($printer)
        or die "can't close lpr: $!";

"-" ファイル

再び標準シェルの機能に合わせるように、Perl の open 関数は、名前がマイナス一つ "-" だけのファイルを特別に扱います。 読み込み用にマイナスを開くと、実際には標準入力にアクセスします。 書き込み用にマイナスを開くと、実際には標準出力にアクセスします。

マイナスがデフォルトの入力やデフォルトの出力として使えるとすると、 パイプに対してマイナスを使うとどうなるでしょう? デフォルトのコマンドとして何が実行されるのでしょう? 今実行している同じスクリプトです! これは実際には open 呼び出し内で隠れた fork が行われます。 詳しくは "Safe Pipe Opens" in perlipc を参照してください。

読み書きを混ぜる

読み書きアクセス双方を指定することは可能です。 必要なことはリダイレクトの前に "+" の文字を加えるだけです。 しかしシェルの場合と同様、ファイルに小なり記号を使っても新しいファイルが 作成されることはありません; すでにあるファイルを開くだけです。 一方、大なり記号を使うと、ファイルがある場合には常に上書き (長さ 0 に切り詰め)られ、ファイルがない場合は新しいファイルが作成されます。 読み書き用に "+" を追加しても、既にあるファイルにだけ動作するか 既にあるファイルを上書きするかということには影響を与えません。

    open(WTMP, "+< /usr/adm/wtmp") 
        || die "can't open /usr/adm/wtmp: $!";

    open(SCREEN, "+> lkscreen")
        || die "can't open lkscreen: $!";

    open(LOGFILE, "+>> /var/log/applog")
        || die "can't open /var/log/applog: $!";

一つ目のものは新しいファイルを作ることはなく、二つ目のものは常に古い ファイルを上書きします。 三つ目のものは必要があれば新しいファイルを作りますが、古いファイルを 上書きせず、ファイルのどの地点でも読み込むことができますが、 書き込みは常に末尾に行われます。 要するに、一つ目のものは(ほとんど常に間違っている)二つ目や三つ目の ものよりもかなり一般的です。 (もし C を知っているなら、Perl の open で使われるプラス記号が 歴史的には (最終的に呼ばれることになる) C の fopen(3S) に由来しています。)

実際、ファイルを更新するとき、上述の WTMP の場合のようなバイナリファイルに 対して作業をするのでない限り、おそらく更新のためにこの手法を 使いたくないでしょう。 代わりに、Perl の -i フラグが助けになります。 以下のコマンドは C, C++, yacc 全てののソースファイルとヘッダファイルを 取って、その中の全ての foo を bar に変更し、原版は元のファイル名の末尾に ".orig" を付けたファイルに保持します:

    $ perl -i.orig -pe 's/\bfoo\b/bar/g' *.[Cchy]

これは実際にはテキストファイルを更新するための最良の方法であるリネーム 手法へのショートカットです。 さらなる詳細については perlfaq5 の 2 番目の質問を参照してください。

フィルタ

open のもっとも一般的な使い方の一つは、使っていることを 気づきすらしないものです。 ARGV ファイルハンドルを <ARGV> を使って処理するとき、Perl は 実際は @ARGV の各ファイルを暗黙の内に開いています。 従って、以下のようなプログラムは:

    $ myprogram file1 file2 file3

以下のようなものより複雑な構文を使わなくても、それぞれのファイルを 開いて一度に処理できます:

    while (<>) {
        # do something with $_
    } 

ループが最初に開始したときに @ARGV が空なら、Perl はマイナス記号 (つまり標準入力) を開いたかのように振る舞います。 実際、<ARGV> で現在開いているファイルを示す $ARGV には、 この慣習によって "-" がセットされます。

好みの形にするために、ループの開始前に @ARGV を前処理しても問題ありません。 こうするための理由の一つは、マイナスから始まるコマンドオプションを 削除するためです。 いつでも自分で単純なものを作ることができる一方、 Getopts モジュールはこれを行うのによいものです:

    use Getopt::Std;

    # -v, -D, -o ARG, sets $opt_v, $opt_D, $opt_o
    getopts("vDo:");            

    # -v, -D, -o ARG, sets $args{v}, $args{D}, $args{o}
    getopts("vDo:", \%args);    

あるいは、名前付きの引数を使えるようにするための 標準の Getopt::Long モジュールもあります:

    use Getopt::Long;
    GetOptions( "verbose"  => \$verbose,        # --verbose
                "Debug"    => \$debug,          # --Debug
                "output=s" => \$output );       
            # --output=somestring or --output somestring

引数を前処理するためのもう一つの理由は、空引数リストの時は デフォルトで全てのファイルとする場合です:

    @ARGV = glob("*") unless @ARGV;

プレーンなテキストファイル以外をフィルタリングすることもできます。 これはもちろん少し静かなので、途中でそれに言及したいかもしれません。

    @ARGV = grep { -f && -T } @ARGV;

もし -n-p のコマンドラインオプションを使っているなら、 @ARGV への変更は BEGIN{} ブロックで行うべきです。

通常の open は特別な特性を持っていて、引数が何に見えるかによって、 fopen(3S) を呼ぶかもしれませんし、popen(3S) を呼ぶかもしれません; これが時々「マジカルに開く」と呼ばれる理由です。 以下は例です:

    $pwdinfo = `domainname` =~ /^(\(none\))?$/
                    ? '< /etc/passwd'
                    : 'ypcat passwd |';

    open(PWD, $pwdinfo)                 
                or die "can't open $pwdinfo: $!";

このようなことはフィルタ処理でも起こります。 <ARGV> 処理は通常のシェル風の Perl open を用いるので、 今までに見てきた全ての特別なことが反映されます:

    $ myprogram f1 "cmd1|" - f2 "cmd2|" f3 < tmpfile

このプログラムはファイル f1、プロセス cmd1、標準入力 (この場合は tmpfile)、ファイル f2、コマンド cmd2、 ファイル f3 から読み込みます。

はい、これは、"-" (あるいは同じような) 名前を持つファイルがある場合、 open によってそのまま処理することができないことも意味します。 rm プログラムに対して行うのと同様に "./-" という形で渡すか、後述する sysopen を使う必要があります。

もっと興味深いアプリケーションの一つは、ある名前を持ったファイルを パイプに変更するものです。 例えば、gzip や compress されたファイルを、gzip を使って自動的に 展開するには:

    @ARGV = map { /\.(gz|Z)$/ ? "gzip -dc $_ |" : $_  } @ARGV;

あるいは、LWP からインストールされる GET プログラムがあるなら、 処理する前に URL をフェッチできます:

    @ARGV = map { m#^\w+://# ? "GET $_ |" : $_ } @ARGV;

これがマジカルな <ARGV> と呼ばれるのは理由のないことではありません。 かなりしゃれてるでしょ?

C 風に開く

シェルの便利さを求めているなら、Perl の open はまさにぴったりです。 一方、C の単純な fopen(3S) が提供しているものより高い精度を求めているなら、 open(2) システムコールへの直接的なフックである、Perl の sysopen を見るべきです。 これはもう少し深く関わることを意味しますが、これは精度のコストです。

sysopen は 3 (または 4) 引数を取ります。

    sysopen HANDLE, PATH, FLAGS, [MASK]

HANDLE 引数は open と同様のファイルハンドルです。 PATH はリテラルなパスで、大なりや小なりやパイプやマイナスや空白の 無視といったことに一切注意を払いません。 もしこれらの文字があれば、それはパスの一部です。 FLAGS 引数は、ビット単位 "|" 演算子で結合できる、Fcntl モジュールに 由来する一つ以上の値を指定します。 最後の引数である MASK はオプションです; もしあれば、これは ファイルの作成モードのためのユーザーの現在の umask と組み合わされます。 普通はこれは省略するべきです。

読み込み専用、書き込み専用、読み書きを示す伝統的な値は それぞれ 0, 1, 2 ですが、これが正しくないシステムもあることが 知られています。 代わりに、以下の標準フラグを提供している Fcntl モジュールから 最初に適切な定数を読み込むのが最善です:

    O_RDONLY            Read only
    O_WRONLY            Write only
    O_RDWR              Read and write
    O_CREAT             Create the file if it doesn't exist
    O_EXCL              Fail if the file already exists
    O_APPEND            Append to the file
    O_TRUNC             Truncate the file
    O_NONBLOCK          Non-blocking access

オペレーティングシステムによっては、 O_BINARY, O_TEXT, O_SHLOCK, O_EXLOCK, O_DEFER, O_SYNC, O_ASYNC, O_DSYNC, O_RSYNC, O_NOCTTY, O_NDELAY, O_LARGEFILE のような、それほど有名ではない フラグも利用可能です。 詳しくは open(2) man ページその等価物を参照してください。 (注意: Perl リリース 5.6 から、もし利用可能なら、sysopen() のフラグに 自動的に O_LARGEFILE フラグが付きます; 大きなファイルがデフォルトに なったからです。)

これは、前述した単純な open をエミュレートするために sysopen を 使う方法です。 明確化のために || die $! のチェックは省略しましたが、実際のコードでは 常に返り値をチェックするようにしてください。 open は前後の空白を削除するのでこれは全く同じというわけではありませんが、 想像はできるでしょう。

ファイルを読み込み用に開くには:

    open(FH, "< $path");
    sysopen(FH, $path, O_RDONLY);

ファイルを書き込み用に開いて、必要なら新しいファイルを作り、そうでなければ 古いファイルを切り詰めるには:

    open(FH, "> $path");
    sysopen(FH, $path, O_WRONLY | O_TRUNC | O_CREAT);

ファイルを追加用に開いて、もし必要なら新しいファイルを作るには:

    open(FH, ">> $path");
    sysopen(FH, $path, O_WRONLY | O_APPEND | O_CREAT);

既に存在しているファイルを更新用に開くには:

    open(FH, "+< $path");
    sysopen(FH, $path, O_RDWR);

そしてここでは普通の open では出来ないことを sysopen でしています。 見てきたように、これは単に 3 番目の引数のフラグの制御の問題です。

既に存在していたりはしない新しいファイルを作成して、ファイルを書き込み用に 開くには:

    sysopen(FH, $path, O_WRONLY | O_EXCL | O_CREAT);

既に存在している必要があるファイルを追加用に開くには:

    sysopen(FH, $path, O_WRONLY | O_APPEND);

必要なら新しいファイルを作成して、ファイルを更新用に開くには:

    sysopen(FH, $path, O_RDWR | O_CREAT);

予め存在していてはならないファイルを交信用に開くには:

    sysopen(FH, $path, O_RDWR | O_EXCL | O_CREAT);

必要ならファイルを作成して、ファイルをブロックせずに開くには:

    sysopen(FH, $path, O_WRONLY | O_NONBLOCK | O_CREAT);

権限モード

sysopen の MASK 引数を省略すると、Perl は 8 進数の 0666 を使います。 実行ファイルとディレクトリに対する通常の MASK は 0777で、それ以外の ファイルでは 0666 です。

なぜそんなに権限を与えるのでしょう? えっと、実際にはそうではありません。 MASK はプロセスの現在の umask で修正されます。 umask は 無効にする 許可ビットを表現する数値です; つまり、 作成したファイルの許可フィールドを有効にすることはないということです。

例えば、umask が 027 の場合、020 の部分はグループによる書き込みと 実行を無効にし、007 の部分は他のユーザーによる読み込み、書き込み、 実行を無効にします。 この条件では、sysopen に 0666 を渡すとモード 0640 でファイルを作ります; 0666 & ~027 は 0640 だからです。

sysopen() に MASK 引数を使うことはほとんどないでしょう。 これは、新しいファイルにどのパーミッションを与えるかというユーザーの 自由を奪います。 選択を拒むということは、ほとんど常に悪いことです。 一つの例外は、メールフォルダ、クッキーファイル、内部用一時ファイルのような、 微妙な、あるいはプライベートなデータを保管する場合でしょう。

わかりにくい開くときの小技

ファイルを再び開く(dup)

既に開いているファイルハンドルを持っている時に、これを複製して もう一つのハンドルがほしくなる場合がときどきあります。 シェルでは、リダイレクトをするときにファイル記述子番号の前に アンパサンドを置きます。 例えば 2>&1 は、記述子 2 (これは Perl では STDERR) を 記述子 1 (これは Perl では普通は STDOUT) にリダイレクトします。 同じことは Perl でも基本的には真です: アンパサンドで始まるファイル名は、 それが数値ならファイル記述子、文字列ならファイルハンドルとして 扱われます。

    open(SAVEOUT, ">&SAVEERR") || die "couldn't dup SAVEERR: $!";
    open(MHCONTEXT, "<&4")     || die "couldn't dup fd4: $!";

これは、もし関数がファイル名を想定しているけれども、既にファイルは 開いているのでファイル名を渡したくない場合、単に先頭にアンパサンドを 付けたファイルハンドルを渡せるということを意味します。 しかし、万が一関数がたまたま違うパッケージだったときのために、完全修飾した ハンドルを渡すのが最善です:

    somefunction("&main::LOGFILE");

この方法により、somefunction() が引数の値を開いた場合、 単に既に開いているハンドルを使えます。 これはハンドルを渡すのとは違います; なぜならハンドルではファイルを 開かないからです。 こちらでは開くときに指定できるものが指定できます。

もし、C++ 民が夢中になっているような巧妙で目新しい I/O オブジェクトの一つを 使っているなら、これらはネイティブな Perl 的に適切なファイルハンドルでは ないので、上述のような方法は動作しません。 適切な記述子番号を得るために fileno() を使う必要があります; それが出来ると 仮定すれば:

    use IO::Socket;
    $handle = IO::Socket::INET->new("www.perl.com:80");
    $fd = $handle->fileno;
    somefunction("&$fd");  # not an indirect function call

しかし、単に普通のファイルハンドルを使う方が簡単でしょう (そして確実に高速です):

    use IO::Socket;
    local *REMOTE = IO::Socket::INET->new("www.perl.com:80");
    die "can't connect" unless defined(fileno(REMOTE));
    somefunction("&main::REMOTE");

もしファイルハンドルや記述子番号の前にあるのが単なる "&" ではなく "&=" の 組み合わせの場合、Perl は dup(2) システムコールを使って同じ場所で開いた 完全に新しい記述子は作りません。 代わりに、fdopen(3S) ライブラリコールを使ってすでにある記述子の別名的な ものを作ります。 これはシステムのリソースを少しケチることが出来ますが、最近ではこれは あまり関心を持たれなくなりました。 以下はこの例です:

    $fd = $ENV{"MHCONTEXTFD"};
    open(MHCONTEXT, "<&=$fd")   or die "couldn't fdopen $fd: $!";

もしマジカルな <ARGV> を使っているなら、"<&=$MHCONTEXTFD" の ような感じで @ARGV 内のコマンドライン引数として渡すことすら可能ですが、 実際にこれをしている人を見たことはありません。

魔法を解く

Perl は、Java のような言語よりも「空気を読む」(DWIM)言語です -- DWIM とは "do what I mean" の略です。 しかし、この原則は時々利用者が知っている以上の隠れた動作をすることが あります。 こんな風に、Perl は (魔法を意味する不明確な単語である) dweomer にも 満ちています。 時々、Perl の空気の読み方は快適さのために魔法のようになります。

もしマジカルな open があなたにとってちょっとマジカルすぎるとしても、 sysopen にまで戻る必要はありません。 ファイル名にどんな変な文字が含まれているファイルでも開くためには、 先頭と末尾の空白を保護する必要があります。 先頭の空白は、空白で始まるファイル名の前に "./" を挿入することで 保護します。 末尾の空白は、文字列の末尾に ASCII NUL バイト ("\0") を 追加することで保護します。

    $file =~ s#^(\s)#./$1#;
    open(FH, "< $file\0")   || die "can't open $file: $!";

これはもちろん、あなたのシステムが "." をカレントディレクトリ、 "/" をディレクトリの区切りとして扱い、ASCII NUL をファイル名として 認めていないということを仮定しています。 全ての POSIX システムとプロプリエタリの Microsoft システムを含む、 ほとんどのシステムはこの慣例に従っています。 これに従わない、一般的に有名な唯一のシステムは "Classic" Macintosh システムです; これは他のシステムが "/" を 使っているところで ":" を使います。 おそらく、とにかく sysopen を使うということはそれほど悪い考えでは ありません。

もし、<ARGV> の処理を、本当に退屈かつマジカルでない方法で 行いたいなら、まず以下のようにできます:

    #   "Sam sat on the ground and put his head in his hands.  
    #   'I wish I had never come here, and I don't want to see 
    #   no more magic,' he said, and fell silent."
    for (@ARGV) { 
        s#^([^./])#./$1#;
        $_ .= "\0";
    } 
    while (<>) {  
        # now process $_
    } 

但し、ユーザーは、標準入力を意味するために "-" を使うという一般的な 慣習が使えないということを喜ばないだろうということは 警告しておきます。

open にパスを

どうやって Perl の warn 関数と die 関数が以下のようなメッセージを 生成するかに気付いたでしょう:

    Some warning at scriptname line 29, <FH> line 7.

これは、あなたがファイルハンドル FH を開いて、そこから 7 レコードを 読み込んだからです。 しかし、ハンドルではなく、ファイル名はどうでしょう?

もし strict refs を有効にしていないか、一時的に無効にしているなら、 する必要があるのは以下のことだけです:

    open($path, "< $path") || die "can't open $path: $!";
    while (<$path>) {
        # whatever
    } 

ファイルのパス名をハンドルとして使っているので、以下のような警告が 出ます

    Some warning at scriptname line 29, </etc/motd> line 7.

1 引数の open

Perl の open は 2 引数を取ると言ったことを覚えていますか? これは消極的なごまかしです。 ほら、単に 1 引数を取ることもできます。 変数がレキシカルではなくグローバルな変数の場合にのみ、open に 1 引数だけ(ファイルハンドル)を渡すことができます; こうすると、 同じ名前を持つグローバルなスカラ変数からパスを取ります。

    $FILE = "/etc/motd";
    open FILE or die "can't open $FILE: $!";
    while (<FILE>) {
        # whatever
    } 

どうしてこれはここなんでしょう? 誰かがヒステリックなネズミイルカの要求を満たす必要があります。 これは(遅くとも)非常に初期から Perl にあります。

STDIN と STDOUT を扱う

STDOUT に関する一つの利口な行動は、プログラムの終了時に 明示的に閉じることです。

    END { close(STDOUT) || die "can't close stdout: $!" }

これをしないままで、このプログラムがコマンドラインリダイレクトによって ディスクをいっぱいにしてしまっても、失敗状態でエラー終了しません。

与えられた STDIN と STDOUT を受け入れる必要はありません。 もし望むなら、これらを開き直せます。

    open(STDIN, "< datafile")
        || die "can't open datafile: $!";

    open(STDOUT, "> output")
        || die "can't open output: $!";

それからこれらは直接アクセスしたり子プロセスに渡したりできます。 これらは、プログラムの起動時にコマンドラインからリダイレクトが 与えられたかのように動作します。

これらをパイプにつなぐ方がより興味深いでしょう。 例えば:

    $pager = $ENV{PAGER} || "(less || more)";
    open(STDOUT, "| $pager")
        || die "can't fork a pager: $!";

これによって、プログラムの標準出力がが既にページャとパイプで つながれているかのように見えます。 このようなことはまた、自分自身を暗黙に fork したものと結合するためにも 使えます。 自分自身のプログラムの別のプロセスでで後処理を扱いたい場合、 以下のようにできます:

    head(100);
    while (<>) {
        print;
    } 

    sub head {
        my $lines = shift || 20;
        return if $pid = open(STDOUT, "|-");       # return if parent
        die "cannot fork: $!" unless defined $pid;
        while (<STDIN>) {
            last if --$lines < 0;
            print;
        } 
        exit;
    } 

このテクニックは、繰り返しプッシュすることで、出力ストリームに好きなだけ 多くのフィルタを適用できます。

その他の I/O 関連の話題

これらの話題は実際には opensysopen に関連したものではありませんが、 ファイルを開くときに行うことに影響を与えます。

ファイルでないファイルを開く

ファイルがファイルでないときは? えっと、プレーンファイルでないもののとき、と言いたいんですよね。 まず、念のために、それがシンボリックリンクかどうかを調べます。

    if (-l $file || ! -f _) {
        print "$file is not a plain file\n";
    } 

えーと、ファイルの他にどんな種類のファイルがあるのでしょう? ディレクトリ、シンボリックリンク、名前付きパイプ、Unix ドメインソケット、 キャラクタデバイス、ブロックデバイスです。 これらも全てファイルです -- 単に プレーン ファイルではないと いうだけです。 これはテキストファイルと同じ問題ではありません。 全てのテキストファイルがプレーンファイルではありません。 全てのプレーンファイルがテキストファイルではありません。 これが、-f-T のファイルテストが分離している理由です。

ディレクトリを開くには、opendir 関数を使って、それから readdir で処理します; もし必要なら注意深くディレクトリ名を復元します:

    opendir(DIR, $dirname) or die "can't opendir $dirname: $!";
    while (defined($file = readdir(DIR))) {
        # do something with "$dirname/$file"
    }
    closedir(DIR);

ディレクトリを再帰的に処理したい場合は、File::Find モジュールを使った方が いいでしょう。 例えば、これは全てのファイルを再帰的に表示して、もしファイルが ディレクトリの場合は末尾にスラッシュを追加します。

    @ARGV = qw(.) unless @ARGV;
    use File::Find;
    find sub { print $File::Find::name, -d && '/', "\n" }, @ARGV;

以下は、特定のディレクトリ以下から偽のシンボリックリンクを全て探します:

    find sub { print "$File::Find::name\n" if -l && !-e }, $dir;

上述したように、シンボリックリンクの場合、単にそれが指しているもの振りを することができます。 あるいは、もしそれが 何を 指しているのかを知りたい場合は、 readlink を呼び出します:

    if (-l $file) {
        if (defined($whither = readlink($file))) {
            print "$file points to $whither\n";
        } else {
            print "$file points nowhere: $!\n";
        } 
    } 

名前付きパイプを開く

名前付きパイプは別の問題です。 これらは普通のファイルのように振る舞いますが、この open は普通 読み込み側と書き込み側の両方ができるまでブロックされます。 これらについては "Named Pipes" in perlipc でより多くのことを 読むことができます。 Unix ドメインソケットは同様にやや違うものです; これらは "Unix-Domain TCP Clients and Servers" in perlipc に 記述されています。

デバイスを開くときは、簡単にもなりますしトリッキーにもなります。 ブロックデバイスを開こうとしているなら、何をしようとしているのか 分かっていることを仮定します。 キャラクタデバイスはもっと興味深いです。 これらは典型的にはモデム、マウス、ある種のプリンタのために使われます。 これは "How do I read and write the serial port?" in perlfaq8 に 記述されています。 しばしば慎重に開くだけで充分です:

    sysopen(TTYIN, "/dev/ttyS1", O_RDWR | O_NDELAY | O_NOCTTY)
                # (O_NOCTTY no longer needed on POSIX systems)
        or die "can't open /dev/ttyS1: $!";
    open(TTYOUT, "+>&TTYIN")
        or die "can't dup TTYIN: $!";

    $ofh = select(TTYOUT); $| = 1; select($ofh);

    print TTYOUT "+++at\015";
    $answer = <TTYIN>;

ソケットのように、sysopen を使わずに開いた記述子の場合は、 fcntl を使って非ブロックモードに設定できます:

    use Fcntl;
    my $old_flags = fcntl($handle, F_GETFL, 0) 
        or die "can't get flags: $!";
    fcntl($handle, F_SETFL, $old_flags | O_NONBLOCK) 
        or die "can't set non blocking: $!";

もし tty を操作しようとしているなら、全く異なる ioctl の泥沼に 迷い込むのではなく、もし stty(1) プログラムがあるならこれを呼び出して、 さもなければ移植性のある POSIX インターフェースを使うのが最善です。 これらのこと全てを理解するには、まず tty デバイスへの POSIX インターフェースについて記述している termios(3) man ページを読んで、次に POSIX への Perl のインターフェースについて記述している POSIX を 読む必要があります。 これらのものを扱う助けになるような高レベルモジュールも CPAN にあります。 Term::ReadKey と Term::ReadLine を調べてください。

ソケットを開く

他の何を開けるの? ソケットを使った接続を開くには、Perl の 2 つの open 関数のどちらも 使いません。 そのためには "Sockets: Client/Server Communication" in perlipc を 参照してください。 以下は例です。 これを実行すると、FH を双方向ファイルハンドルとして使えます。

    use IO::Socket;
    local *FH = IO::Socket::INET->new("www.perl.com:80");

URL を開くには、CPAN にある LWP モジュールがぴったりです。 ファイルハンドルのインターフェースはないですが、 それでも簡単に文書の中身を得られます:

    use LWP::Simple;
    $doc = get('http://www.cpan.org/');

バイナリファイル

最終的に (壊れていると言われる) I/O モデルに巻き込まれると寛大にも 呼ばれるある種の古いシステムでは、ファイルはファイルではありません -- 少なくとも C 標準 I/O ライブラリという観点では。 (カーネルではなく)ライブラリがテキストストリームとバイナリストリームを 区別するような古いシステムでは、適切に振る舞うようにファイルを 取得するためには、不愉快な問題を避けるために懸命な努力が必要です。 このような不幸なシステムでは、ソケットとパイプは既にバイナリモードで 開いていて、今のところこれをオフにする方法はありません。 ファイルに対しては、もっと選択肢があります。

もう一つの選択肢は、通常の I/O を行う前に、適切なファイルハンドルに binmode 関数を使うことです:

    binmode(STDIN);
    binmode(STDOUT);
    while (<STDIN>) { print } 

sysopen に非標準フラグオプションを渡すことでも、そのような システムでバイナリモードでファイルを開けます。 これは、ファイルを普通に開いてから、ハンドルに対して binmode を 呼び出すのと等価です。

    sysopen(BINDAT, "records.data", O_RDWR | O_BINARY)
        || die "can't open records.data: $!";

これで、非標準システム I/O ライブラリがデータを壊す心配なしに ハンドルに対して readprint を使えるようになりました。 これは美しい形ではありませんが、レガシーシステムとは大抵そういうものです。 CP/M は世界が終わるまで(そしてその後も)我々と共にあるでしょう。

風変わりな I/O システムを持つシステムでは、驚いたことに、 sysreadsyswrite を使ったバッファリングしない I/O でさえも 背後でこっそりとデータ操作をすることがあります。

    while (sysread(WHENCE, $buf, 1024)) {
        syswrite(WHITHER, $buf, length($buf));
    } 

実行させるシステムの紆余曲折具合によっては、これらのシステムコールですら 最初に binmodeO_BINARY が必要かもしれません。 このような問題がないと分かっているシステムには Unix, Mac OS, Plan 9, Inferno などがあります。

ファイルのロック

マルチタスク環境では、あなたが触ろうとしているファイルと同じファイルを 他のプロセスが衝突しないように気をつける必要があります。 しばしば、ファイルを読み込みまたは書き込みするために、それぞれ 共有ロックと排他ロックが必要になります。 あるいは、単に排他ロックしかないような振りをするかもしれません。

決して、ファイルの存在 -e $file をロック指示に使わないでください; なぜならファイルの存在のテストとその作成の間に競合条件があるからです。 存在チェックとファイル作成のわずかな間に、他のプロセスがファイルを作る 可能性があります。 原子性は危機的です。

Perl でのもっとも移植性のあるロックインターフェースは、 flock 関数によるものです; この単純さは、SysV や Windows のような、 これに直接対応していないシステムでもエミュレートされています。 基礎となる動作はこれがどのように働くかに影響を与えるので、 あなたが使うシステムの Perl で flock がどのように実装されているかを 学ぶべきです。

ファイルロックは、他のプロセスが I/O 操作を行うことからロックするもの ではありません。 ファイルロックは、他のプロセスの I/O 操作をロックするのではなく、他の プロセスがロックを得ようとすることをロックします。 ロックは勧告的なので、あるプロセスがロックを使っていても、他の プロセスがロックを使っていなければ、全ては台無しになります。

デフォルトでは、flock 呼び出しは、ロックが得られるまでブロックします。 共有ロック要求は、誰も排他ロックを持っていない状態になれば直ちに 受け入れられます。 排他ロック要求は、誰もあらゆる種類のロックを守っていない状態になれば 与えられます。 ロックはファイル名に対してではなく、ファイル記述子について与えられます。 ファイルを開かずにファイルをロックすることはできませんし、ファイルを閉じた 後もロックを持ったままにすることもできません。

以下はファイルに対してブロックする共有ロックを得る方法で、 典型的には読み込み時に使われます:

    use 5.004;
    use Fcntl qw(:DEFAULT :flock);
    open(FH, "< filename")  or die "can't open filename: $!";
    flock(FH, LOCK_SH)      or die "can't lock filename: $!";
    # now read from FH

LOCK_NB を使うことでブロックしないロックも得られます。

    flock(FH, LOCK_SH | LOCK_NB)
        or die "can't lock filename: $!";

ブロックするときに警告することで、よりユーザーにやさしい振る舞いを することは有用です:

    use 5.004;
    use Fcntl qw(:DEFAULT :flock);
    open(FH, "< filename")  or die "can't open filename: $!";
    unless (flock(FH, LOCK_SH | LOCK_NB)) {
        $| = 1;
        print "Waiting for lock...";
        flock(FH, LOCK_SH)  or die "can't lock filename: $!";
        print "got it.\n"
    } 
    # now read from FH

(典型的には書き込みのために) 排他ロックを得るためには、慎重になる 必要があります。 空なる前にロックするために、ファイルを sysopen で開きます。 LOCK_EX | LOCK_NB を使った非ブロック版も得られます。

    use 5.004;
    use Fcntl qw(:DEFAULT :flock);
    sysopen(FH, "filename", O_WRONLY | O_CREAT)
        or die "can't open filename: $!";
    flock(FH, LOCK_EX)
        or die "can't lock filename: $!";
    truncate(FH, 0)
        or die "can't truncate filename: $!";
    # now write to FH

最後に、アクセスカウンタと呼ばれる無駄で空虚な装置のために CPU パワーを 無駄遣いすることから逃れられない無慮数百万のために、 あるファイルの数値を安全に増加させる方法を以下に示します:

    use Fcntl qw(:DEFAULT :flock);

    sysopen(FH, "numfile", O_RDWR | O_CREAT)
        or die "can't open numfile: $!";
    # autoflush FH
    $ofh = select(FH); $| = 1; select ($ofh);
    flock(FH, LOCK_EX)
        or die "can't write-lock numfile: $!";

    $num = <FH> || 0;
    seek(FH, 0, 0)
        or die "can't rewind numfile : $!";
    print FH $num+1, "\n"
        or die "can't write numfile: $!";

    truncate(FH, tell(FH))
        or die "can't truncate numfile: $!";
    close(FH)
        or die "can't close numfile: $!";

IO 層

Perl 5.8.0 で、"PerlIO" と呼ばれる新しい I/O フレームワークが 導入されました。 これは Perl で発生する全ての I/O のための新しい「配管」です; ほとんど全ての部分では単に今まで通りに動作しますが、 I/O を「層」として考えるための機能のような、新しい要素も導入されています。 ある I/O 層は単にデータを移動させるだけでなく、データを変換するかも知れません。 このような変換には、圧縮と展開、暗号化と復号化、様々な文字エンコーディング間の 変換を含むかも知れません。

PerlIO の機能に関する完全な議論はこのチュートリアルの対象外ですが、 層が使われていることをどうやって認識するかを以下に示します:

PerlIO に関するより詳細な議論については PerlIO を参照してください; Unicode と I/O に関するより詳細な議論については perluniintro を 参照してください。

SEE ALSO

perlfunc(1) の open 及び sysopen 関数; システムの open(2), dup(2), fopen(3), fdopen(3) の man ページ; POSIX 文書。

AUTHOR and COPYRIGHT

Copyright 1998 Tom Christiansen.

This documentation is free; you can redistribute it and/or modify it under the same terms as Perl itself.

Irrespective of its distribution, all code examples in these files are hereby placed into the public domain. You are permitted and encouraged to use this code in your own programs for fun or for profit as you see fit. A simple comment in the code giving credit would be courteous but is not required.

HISTORY

First release: Sat Jan 9 08:09:11 MST 1999