view PubdicPlus/pod.jmn @ 11:aa17e2acfa01

add prototypes for function to jllib.h
author Yoshiki Yazawa <yaz@cc.rim.or.jp>
date Sun, 02 Mar 2008 04:48:21 +0900
parents bbc77ca4def5
children
line wrap: on
line source

.\" -*-Mode: nroff-*-
.\" $Id: pod.jmn,v 1.5 1994/05/31 11:29:44 kon Exp $
.nr X 0
.if \nX=0 .ds X} pod 1 "日本語機能ユーティリティ" "\&"
.TH \*(X}
.SH "名前"
pod \- ポータブル辞書形式辞書の種々の操作を行うコマンド
.SH "形式"
.B "pod [\fIoptions\fP] \fIdic1\fP [\fIdic2\fP]"
.SH "説明"
.PP
.IB pod
はポータブル辞書形式の辞書の種々の操作を行うツールであり、辞書のソート、
ユニーク化、比較などを行います。
.PP
どのような処理が行われるかは指定する辞書の数と\fIoptions\fPに依存しま
す。
.PP
単一の辞書を指定すると指定された辞書\fIdic1\fPがソートされ、標準出力に
表示されます。表示される内容で、同一の行が複数現れることはありません。
読み、候補、品詞が同一であればたとえ頻度が異なっていても同一の行とみな
されます。
.PP
2つの辞書を指定するとその2つの辞書の間で項目の比較を行います。比較の
結果、\fIdic1\fP にのみ含まれる項目、\fIdic2\fP にのみ含まれる項目、
\fIdic1\fP および \fIdic2\fP に共通に含まれる項目に分類されます。分類
された項目は\fIoptions\fPの指定により、定められた場所に出力されます。
.PP
\fIdic1\fP あるいは \fIdic2\fP として \- を指定することができ、その場
合にはファイルの代わりに標準入力が参照されます。\fIdic1\fP および
\fIdic2\fP の両方同時に \- を指定することはできません。
.PP
コマンドアーギュメントは \fIdic1\fP と \fIdic2\fP の出現順以外
は順番を問いません。\fIoptions\fP は辞書の指定の後に現れてもかまいませ
ん。
.SH "オプション"

.IP "\-1" 12
ソースとなる辞書の品詞フィールドがスラッシュ(/)で区切られているとき、
pod の出力としては一番左のフィールドに記述された品詞のみを選択して出力
するようにします。

.IP "\-2" 12
ソースとなる辞書の品詞フィールドがスラッシュ(/)で区切られているとき、
pod の出力としては真ん中のフィールドに記述された品詞のみを選択して出力
するようにします。

.IP "\-3" 12
ソースとなる辞書の品詞フィールドがスラッシュ(/)で区切られているとき、
pod の出力としては一番右のフィールドに記述された品詞のみを選択して出力
するようにします。

.IP "\-b \fIkind\fP" 12
出力するエントリのすべての行に \fIkind\fP で示した種類フィールドを付加
します。

.IP "\-c \fIfile\fP" 12
\fIdic1\fP および \fIdic2\fP に共通に含まれる項目がファイル \fIfile\fP
に出力されます。ファイル名として \- を指定すると標準出力に出力されます。

.IP "\-d \fIfile\fP" 12
\fIfile\fP に使われているルールを使って、各エントリを終止形に直します。

.IP "\-f" 12
頻度値をコピーします(どこからどこへ?)。

.IP "\-h" 12
上記の比較の際、品詞の違いを違いとみなしません。\fIdic1\fP と
\fIdic2\fP において読みと候補が同一の項目は項目全体が同一であるとみな
されます。

.IP "\-i" 12
出力形式として『かんな』のテキスト辞書形式で出力を行います。

.IP "\-j" 12
カタカナだけからなるエントリを抽出し出力します。

.IP "\-k \fIkind\fP" 
出力するエントリとしては、\fIkind\fP で示された種類フィールドを持った
ものだけを出力します。

.IP "\-l"
種類フィールドとしてどのようなものが存在するかのリストを出力します。辞
書の出力は行われません。

.IP "\-m"
2つの辞書の比較を行う際に、種類フィールドのみが違うエントリに関しては
同一のエントリとして \-c で示された出力先に対して出力します。その際に
2つの辞書におけるそれぞれの種類フィールドをマージして出力します。

.IP "\-n \fIfile\fP" 12
\fIdic2\fP にのみ含まれる項目がファイル \fIfile\fP に出力されます。ファ
イル名として \- を指定すると標準出力に出力されます。

.IP "\-o \fIfile\fP" 12
\fIdic1\fP にのみ含まれる項目がファイル \fIfile\fP に出力されます。ファ
イル名として \- を指定すると標準出力に出力されます。

.IP "\-p" 12
ソートは通常、ポータブル辞書形式をテキストファイルとみなして、sort(1)
コマンドに与えたときと同じ順序となるように行われますが、\-p オプション
を与えた場合は、同一の読みに対しては頻度の大きいものほど先に現れるよう
にソートします。頻度が同じ値である場合にはその他の部分の sort(1) 順に
したがいます。

.IP "\-r \fItranslation_table\fP" 12
\-s と同様に品詞名の付け替えを行いますが、\fItranslation_table\fP に記
述されている規則を逆に適用します。すなわち、\-s の場合と逆の変換を行い
ます。

.IP "\-s \fItranslation_table\fP" 12
品詞名付け替えファイル \fItranslation_table\fP に記述されている規則に
したがって品詞名の付け替えを行います。品詞名付け替えファイルは、各行が、
元の品詞、付け代わる品詞、の組みから構成されているファイルです。
\fIdic1\fP および \fIdic2\fP にて使われている品詞名の付け替え規則が
\fItranslation_table\fP に見つからない場合にはエラーを発生し処理が中断
します。

.IP "\-v" 12
出力形式として SJ3 のビジュアル形式辞書で出力を行います。

.IP "\-w" 12
出力形式として Wnn のテキスト形式辞書で出力を行います。

.IP "\-x" 12
SJ3 とマージします(本当か?)。

.SH "使用例"
.IP (1) 4
辞書 foo.p の内容をソートし表示します。
.sp
.ft CW
.nf
  % pod foo.p
.fi
.ft
.sp
.IP (2) 4
辞書 foo.p および bar.p をマージし、ソートし出力します。
.sp
.ft CW
.nf
  % cat foo.p bar.p | pod -
.fi
.ft
.sp
.IP (3) 4
辞書 foo.p について、同一の読みについては頻度の大きい順にソートして出
力します。
.sp
.ft CW
.nf
  % pod foo.p -p
.fi
.ft
.sp
.IP (4) 4
辞書 foo.p から foo.p.new への変更を、削除された分についてはファイル名
del のファイルに、追加された分についてはファイル名 add のファイルに出
力することにより差分を求めます。
.sp
.ft CW
.nf
  % pod foo.p foo.p.new -o del -n add
.fi
.ft
.sp
.IP (5) 4
辞書 foo.p からファイル del に含まれる項目を削除し、ファイル add に含
まれる項目を追加し、foo.p.new に出力します。
.sp
.ft CW
.nf
  % (cat add ; pod foo.p del -o -) | pod - > foo.p.new
.fi
.ft
.sp
.IP (6) 4
辞書 bar.p に含まれている各項目に一致する項目を、たと
え品詞が異なっていてもよいから辞書 foo.p から抽出し標準出力に出力します。
.sp
.ft CW
.nf
  % pod -h foo.p bar.p -c -
.fi
.ft
.sp
.IP (7) 4
辞書 foo.p の品詞名を品詞変更テーブルファイル wc.tab をベースに変更しま
す。
.sp
.ft CW
.nf
  % pod -s wc.tab foo.p
.fi
.ft
.sp
.IP (8) 4
辞書 pubdic.p から、種別フィールドとして bio が記述されているエントリ
のみを bio.p と言うファイルに取り出します。
.sp
.ft CW
.nf
  % pod -k bio pubdic.p > bio.p
.fi
.ft
.sp
.IP (9) 4
辞書 pubdic.p から、種別フィールドとして bio が記述されているエントリ
のみを取り出し、さらに品詞も Wnn のものを選択し Wnn のテキスト辞書形式
で取り出します。変換結果を bio.uに出力します。
.sp
.ft CW
.nf
  % pod -k bio pubdic.p -w -1 > bio.u
.fi
.ft
.sp
.IP (10) 4
Wnn の辞書 bio.u の各エントリに種別を表す bio と言う種別フィールドを付
加し、出力します。
.sp
.ft CW
.nf
  % pod -b bio bio.u
.fi
.ft
.sp
.IP (11) 4
辞書 pubdic.p と special.p をマージし、頻度でソートし、『かんな』の品
詞を選択し、『かんな』のテ
キスト辞書形式で iroha.t と言うファイルに出力します。
.sp
.ft CW
.nf
  % cat pubdic.p special.p | pod - -p -i -2 > iroha.t
.fi
.ft
.sp
.IP (12) 4
辞書 pubdic.p と special.p をマージし、頻度でソートし、SJ3 の品詞を選
択し、SJ3 のビジュアル辞書形式で visual.dic と言うファイルに出力します。
.sp
.ft CW
.nf
  % cat pubdic.p special.p | pod - -p -v -3 > visual.dic
.fi
.ft
.sp
.SH "バグ"
エラーチェックをあまりしていません。辞書をいったんメモリ上に読み込むの
でメモリをかなり消費します。\-s オプション、\-r オプションに関しては仕
様の変更を行う予定です。
.PP
頻度だけが異なる項目の削除のしかたに法則性がありません。これは法則性を
持たせるように仕様を変更する予定です。
.SH "関連情報"
ctop(1), ptoc(1)