comparison PubdicPlus/PUBDICPLUS-README.jp @ 0:bbc77ca4def5

initial import
author Yoshiki Yazawa <yaz@cc.rim.or.jp>
date Thu, 13 Dec 2007 04:30:14 +0900
parents
children
comparison
equal deleted inserted replaced
-1:000000000000 0:bbc77ca4def5
1 <本ソフトウェアの取り扱いおよび無保証について>
2
3 このディレクトリにあるのはフリーな辞書 pubdic です。
4
5 この辞書は何をしてもかまいません。
6
7 また、このディレクトリには pubdic を扱ういくつかのコマンドがあります。
8 これらのコマンドに関しても何をしてもかまいません。
9
10 pubdic および pubdic をあつかうコマンドをここでは「本ソフトウェア」と
11 総称します。
12
13 本ソフトウェアはいわゆる as is のものとして提供されており、本ソフトウェ
14 アの著作者および pubdic ボランティアは、本ソフトウェアによって引き起こ
15 されるいかなる損害に関する保証を行いませんのであらかじめご了承ください。
16
17 本ソフトウェアの再配布も自由ですが、本ソフトウェアの再配布を行う場合は
18 本文書と同様の注意文を付加するなど無保証であることを明示するか、あるい
19 は再配布者の責任により保証を行うようお願いします。すなわち、再配布先に
20 おけるいかなる損害の責任も本ソフトウェアの著作者および pubdic ボランティ
21 アに及ばないようにお願いします。
22
23 <pubdic フォーマットについて>
24
25 本ソフトウェアでは辞書を表現するのに pubdic フォーマットと言う新しいフォー
26 マットを採用しています。pubdic フォーマットは以下の形をしています。
27
28 読み 候補 品詞 頻度 [種類[/種類[/..]]]
29
30 例えば、以下が pubdic フォーマットの例です。例で分かる通り、品詞フィー
31 ルドには Wnn/Canna/SJ3 の品詞が併記されています。これは将来的にはより
32 一般的な記述を持った品詞表記に変えて行きたいと考えています。
33
34 あかんこ 阿寒湖 地名/#CN/地名: 3 chimei
35 あき 飽き 一段/#KS/一段1: 40
36 か 書 カ行五段/#K5/カ五1: 66
37 のうかすいたい 脳下垂体 名詞/#T35/名1: bio
38
39 第5フィールドの種類フィールドには種類を表す文字列を記します。ただし、
40 種類が kihon である場合にはこのフィールドをサプレスすることが可能です。
41 種類が複数に渡る場合にはスラッシュ(/)で区切ってそれらの種類をならべま
42 す。複数の種類を記述する場合には kihon に関してもサプレスせず記述を行
43 わなければなりません。
44
45 <pubdic フォーマット標準形>
46
47 辞書ツールなどで取り扱いを行うとき、同じ内容を持つ辞書が複数の表現形式
48 を持ってしまうことは diff などで違いを調べるときなどに不便を来すことが
49 あります。
50
51 <例>
52
53 あかんこ 阿寒湖 #CN 3 chimei
54 あき 飽き #KS 40
55
56
57
58 あき 飽き #KS 40
59 あかんこ 阿寒湖 #CN 3 chimei
60
61 そこで、同一の辞書は同一のファイル表現となるように標準形を以下のように
62 定義します。
63
64 (1) 各エントリにおいて、各フィールド間は単一の空白(space)により区切ら
65 れる。
66
67 (2) 第5エントリが kihon のみになる場合はそのフィールドはサプレスする。
68
69 (3) 最終フィールドの右は直ちに改行が来るものとする。
70
71 (4) 空白行は含まない。
72
73 (5) 各エントリはコード順にソートされる。
74
75 (6) 読み、単語、品詞が同じエントリはたかだか1行しか存在しない。
76
77 標準形になっていない pubdic フォーマット辞書 foo.p を標準形にするため
78 には、コマンド pod を用いて以下のようにすると標準出力には標準形に直さ
79 れた辞書が出力されます。
80
81 % pod foo.p
82
83 <辞書の差分抽出について>
84
85 辞書 a.p をベースにある程度修正を加え b.p を作成したときに、a.p と b.p
86 の差分を求めるにはコマンド pod を用いて以下のようにします。
87
88 % pod a.p b.p -o dels -n adds
89
90 これにより削除されたエントリが dels に、追加されたエントリが adds に出
91 力されます。
92
93 a.p のみを所持している人がこの dels および adds を入手し b.p を再現す
94 るには以下のようにします。
95
96 % pod a.p dels -o - | cat adds | pod - > b.p
97
98 dels および adds は context diff と異なり、実際に追加/削除さらた部分だ
99 けですので、context diff よりは量が少なくなります。
100
101 <各かな漢字変換システム用の辞書の作成>
102
103 まず、以下を実行します。
104
105 % xmkmf
106
107 Wnn の辞書を作るにはこのディレクトリで、
108
109 % make wnn
110
111 を実行します。 すると、bio.u、chimei.u、computer.u、jinmei.u、kihon.u、
112 koyuu.u、setsuji.u、symbol.u、tankan.u ができます。special.u は最初か
113 ら置いてあります。
114
115 『かんな』の辞書を作成するにはこのディレクトリで、
116
117 % make canna
118
119 を実行します。すると iroha.t ができます。
120
121 SJ3 の辞書を作るにはこのディレクトリで、
122
123 % make sj3
124
125 を実行します。すると visual.dic ができます。
126