annotate Wnn/manual/1.intro/Intro3 @ 3:ed4bb01eb317

- suppress warnings. - partially fixed comparison between pointer and 0.
author Yoshiki Yazawa <yaz@cc.rim.or.jp>
date Thu, 13 Dec 2007 19:53:14 +0900
parents bbc77ca4def5
children
Ignore whitespace changes - Everywhere: Within whitespace: At end of lines:
rev   line source
0
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
1 1.3.3 付属語について
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
2
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
3 jserver(1) は、立ち上がりの時に、付属語情報を読み込む。
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
4 このファイルは、jserverrc(4),wnnenvrc(4),wnnenvrc_R(4),wnnenvrc_Roma(4)の中に
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
5 書いて指定することもできる。また、指定がなければ、デフォルトのファイル
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
6 (/usr/local/lib/wnn/ja_JP/dic/pubdic/full.fzk) が読み込まれる。
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
7
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
8 jserver が、読み込むことのできる形式の付属語情報のファイルを、データ形式付属語
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
9 情報(fzd.data(5)) と呼ぶ。これは、UJISコードのテキストファイルであるため、ユ
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
10 ーザが、これを書くことも可能であるが、ユーザが、付属語の接続の仕方を調べたり、自
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
11 分で書き換えたりするためには、もっと分かり易い形式で書かれたファイルが望まれる。
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
12 そのために、UJIS形式付属語情報(fzk.u(5)) と呼ばれるファイルが、用意されて
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
13 いる。これは、ある付属語がどのような自立語や付属語と続くかという情報をより分かり
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
14 易いように書いたものであり、付属語情報の中に間違いがあってそれを修正したい時、あ
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
15 るいは、自分で付属語を定義し直したい時に、容易に書き直すことができるようになって
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
16 いる 。このUJIS形式の付属語情報を atof(1) コマンドによって、データ形式の付属
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
17 語情報に変換する。
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
18
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
19 ここで、簡単に、付属語情報について説明をしておく。
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
20 それぞれの付属語は、読みと、その付属語が属する品詞と、その付属語の前にどのような
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
21 品詞の付属語が来れるかという情報を持っている。どのような品詞があって、その品詞に
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
22 どのような語が属しているということも定義する。ここでは、品詞を付属語を後ろへの接
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
23 続の仕方によって分類している。このため、日本語文法における普通の意味の一つの付属
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
24 語でも、活用形が違うと別の品詞の別の付属語として取り扱うし、普通に言う品詞とは少
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
25 し異なっている。また、付属語の意味を拡張して、活用をする自立語の活用語尾も付属語
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
26 として取り扱っている。そして、デフォルトで用意している付属語情報では、活用をする
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
27 付属語は、語幹と活用語尾に分けて、別々の付属語として取り扱っている部分がある。こ
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
28 れは、活用形ごとに別々の付属語としたのでは、その付属語の前に来れる付属語の情報を
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
29 複数の場所で持つことになるので、付属語情報の保守が難しくなるのと、もともと別々の
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
30 付属語の語尾であっても、読みが同じで、同じ品詞に属していれば、それらをまとめて一
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
31 つの付属語として扱うことができるためである。また、「、」と「。」も付属語として扱
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
32 っている。
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
33
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
34 付属語情報としては、個々の付属語の情報の他に、文節の終わりにどの品詞の付属語が
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
35 来れるかという情報が必要である。この情報を終端ベクトルといい、定義する必要がある。
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
36 終端ベクトルとして、どのようなものを使うかは、それまでの解析結果によって、異なる
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
37 ため、5種類の終端ベクトルが定義できるようになっている。しかし、現在は、連文節解
bbc77ca4def5 initial import
Yoshiki Yazawa <yaz@cc.rim.or.jp>
parents:
diff changeset
38 析のためのものと、単文節解析のためのものの2つだけである。