Mercurial > freewnn
view PubdicPlus/pod.jmn @ 10:fc3022f61fc7
tiny clean up
author | Yoshiki Yazawa <yaz@cc.rim.or.jp> |
---|---|
date | Fri, 21 Dec 2007 17:23:36 +0900 |
parents | bbc77ca4def5 |
children |
line wrap: on
line source
.\" -*-Mode: nroff-*- .\" $Id: pod.jmn,v 1.5 1994/05/31 11:29:44 kon Exp $ .nr X 0 .if \nX=0 .ds X} pod 1 "日本語機能ユーティリティ" "\&" .TH \*(X} .SH "名前" pod \- ポータブル辞書形式辞書の種々の操作を行うコマンド .SH "形式" .B "pod [\fIoptions\fP] \fIdic1\fP [\fIdic2\fP]" .SH "説明" .PP .IB pod はポータブル辞書形式の辞書の種々の操作を行うツールであり、辞書のソート、 ユニーク化、比較などを行います。 .PP どのような処理が行われるかは指定する辞書の数と\fIoptions\fPに依存しま す。 .PP 単一の辞書を指定すると指定された辞書\fIdic1\fPがソートされ、標準出力に 表示されます。表示される内容で、同一の行が複数現れることはありません。 読み、候補、品詞が同一であればたとえ頻度が異なっていても同一の行とみな されます。 .PP 2つの辞書を指定するとその2つの辞書の間で項目の比較を行います。比較の 結果、\fIdic1\fP にのみ含まれる項目、\fIdic2\fP にのみ含まれる項目、 \fIdic1\fP および \fIdic2\fP に共通に含まれる項目に分類されます。分類 された項目は\fIoptions\fPの指定により、定められた場所に出力されます。 .PP \fIdic1\fP あるいは \fIdic2\fP として \- を指定することができ、その場 合にはファイルの代わりに標準入力が参照されます。\fIdic1\fP および \fIdic2\fP の両方同時に \- を指定することはできません。 .PP コマンドアーギュメントは \fIdic1\fP と \fIdic2\fP の出現順以外 は順番を問いません。\fIoptions\fP は辞書の指定の後に現れてもかまいませ ん。 .SH "オプション" .IP "\-1" 12 ソースとなる辞書の品詞フィールドがスラッシュ(/)で区切られているとき、 pod の出力としては一番左のフィールドに記述された品詞のみを選択して出力 するようにします。 .IP "\-2" 12 ソースとなる辞書の品詞フィールドがスラッシュ(/)で区切られているとき、 pod の出力としては真ん中のフィールドに記述された品詞のみを選択して出力 するようにします。 .IP "\-3" 12 ソースとなる辞書の品詞フィールドがスラッシュ(/)で区切られているとき、 pod の出力としては一番右のフィールドに記述された品詞のみを選択して出力 するようにします。 .IP "\-b \fIkind\fP" 12 出力するエントリのすべての行に \fIkind\fP で示した種類フィールドを付加 します。 .IP "\-c \fIfile\fP" 12 \fIdic1\fP および \fIdic2\fP に共通に含まれる項目がファイル \fIfile\fP に出力されます。ファイル名として \- を指定すると標準出力に出力されます。 .IP "\-d \fIfile\fP" 12 \fIfile\fP に使われているルールを使って、各エントリを終止形に直します。 .IP "\-f" 12 頻度値をコピーします(どこからどこへ?)。 .IP "\-h" 12 上記の比較の際、品詞の違いを違いとみなしません。\fIdic1\fP と \fIdic2\fP において読みと候補が同一の項目は項目全体が同一であるとみな されます。 .IP "\-i" 12 出力形式として『かんな』のテキスト辞書形式で出力を行います。 .IP "\-j" 12 カタカナだけからなるエントリを抽出し出力します。 .IP "\-k \fIkind\fP" 出力するエントリとしては、\fIkind\fP で示された種類フィールドを持った ものだけを出力します。 .IP "\-l" 種類フィールドとしてどのようなものが存在するかのリストを出力します。辞 書の出力は行われません。 .IP "\-m" 2つの辞書の比較を行う際に、種類フィールドのみが違うエントリに関しては 同一のエントリとして \-c で示された出力先に対して出力します。その際に 2つの辞書におけるそれぞれの種類フィールドをマージして出力します。 .IP "\-n \fIfile\fP" 12 \fIdic2\fP にのみ含まれる項目がファイル \fIfile\fP に出力されます。ファ イル名として \- を指定すると標準出力に出力されます。 .IP "\-o \fIfile\fP" 12 \fIdic1\fP にのみ含まれる項目がファイル \fIfile\fP に出力されます。ファ イル名として \- を指定すると標準出力に出力されます。 .IP "\-p" 12 ソートは通常、ポータブル辞書形式をテキストファイルとみなして、sort(1) コマンドに与えたときと同じ順序となるように行われますが、\-p オプション を与えた場合は、同一の読みに対しては頻度の大きいものほど先に現れるよう にソートします。頻度が同じ値である場合にはその他の部分の sort(1) 順に したがいます。 .IP "\-r \fItranslation_table\fP" 12 \-s と同様に品詞名の付け替えを行いますが、\fItranslation_table\fP に記 述されている規則を逆に適用します。すなわち、\-s の場合と逆の変換を行い ます。 .IP "\-s \fItranslation_table\fP" 12 品詞名付け替えファイル \fItranslation_table\fP に記述されている規則に したがって品詞名の付け替えを行います。品詞名付け替えファイルは、各行が、 元の品詞、付け代わる品詞、の組みから構成されているファイルです。 \fIdic1\fP および \fIdic2\fP にて使われている品詞名の付け替え規則が \fItranslation_table\fP に見つからない場合にはエラーを発生し処理が中断 します。 .IP "\-v" 12 出力形式として SJ3 のビジュアル形式辞書で出力を行います。 .IP "\-w" 12 出力形式として Wnn のテキスト形式辞書で出力を行います。 .IP "\-x" 12 SJ3 とマージします(本当か?)。 .SH "使用例" .IP (1) 4 辞書 foo.p の内容をソートし表示します。 .sp .ft CW .nf % pod foo.p .fi .ft .sp .IP (2) 4 辞書 foo.p および bar.p をマージし、ソートし出力します。 .sp .ft CW .nf % cat foo.p bar.p | pod - .fi .ft .sp .IP (3) 4 辞書 foo.p について、同一の読みについては頻度の大きい順にソートして出 力します。 .sp .ft CW .nf % pod foo.p -p .fi .ft .sp .IP (4) 4 辞書 foo.p から foo.p.new への変更を、削除された分についてはファイル名 del のファイルに、追加された分についてはファイル名 add のファイルに出 力することにより差分を求めます。 .sp .ft CW .nf % pod foo.p foo.p.new -o del -n add .fi .ft .sp .IP (5) 4 辞書 foo.p からファイル del に含まれる項目を削除し、ファイル add に含 まれる項目を追加し、foo.p.new に出力します。 .sp .ft CW .nf % (cat add ; pod foo.p del -o -) | pod - > foo.p.new .fi .ft .sp .IP (6) 4 辞書 bar.p に含まれている各項目に一致する項目を、たと え品詞が異なっていてもよいから辞書 foo.p から抽出し標準出力に出力します。 .sp .ft CW .nf % pod -h foo.p bar.p -c - .fi .ft .sp .IP (7) 4 辞書 foo.p の品詞名を品詞変更テーブルファイル wc.tab をベースに変更しま す。 .sp .ft CW .nf % pod -s wc.tab foo.p .fi .ft .sp .IP (8) 4 辞書 pubdic.p から、種別フィールドとして bio が記述されているエントリ のみを bio.p と言うファイルに取り出します。 .sp .ft CW .nf % pod -k bio pubdic.p > bio.p .fi .ft .sp .IP (9) 4 辞書 pubdic.p から、種別フィールドとして bio が記述されているエントリ のみを取り出し、さらに品詞も Wnn のものを選択し Wnn のテキスト辞書形式 で取り出します。変換結果を bio.uに出力します。 .sp .ft CW .nf % pod -k bio pubdic.p -w -1 > bio.u .fi .ft .sp .IP (10) 4 Wnn の辞書 bio.u の各エントリに種別を表す bio と言う種別フィールドを付 加し、出力します。 .sp .ft CW .nf % pod -b bio bio.u .fi .ft .sp .IP (11) 4 辞書 pubdic.p と special.p をマージし、頻度でソートし、『かんな』の品 詞を選択し、『かんな』のテ キスト辞書形式で iroha.t と言うファイルに出力します。 .sp .ft CW .nf % cat pubdic.p special.p | pod - -p -i -2 > iroha.t .fi .ft .sp .IP (12) 4 辞書 pubdic.p と special.p をマージし、頻度でソートし、SJ3 の品詞を選 択し、SJ3 のビジュアル辞書形式で visual.dic と言うファイルに出力します。 .sp .ft CW .nf % cat pubdic.p special.p | pod - -p -v -3 > visual.dic .fi .ft .sp .SH "バグ" エラーチェックをあまりしていません。辞書をいったんメモリ上に読み込むの でメモリをかなり消費します。\-s オプション、\-r オプションに関しては仕 様の変更を行う予定です。 .PP 頻度だけが異なる項目の削除のしかたに法則性がありません。これは法則性を 持たせるように仕様を変更する予定です。 .SH "関連情報" ctop(1), ptoc(1)