view Wnn/manual/1.intro/Intro3 @ 16:b0deba88e223

should install build_stamp.h
author Yoshiki Yazawa <yaz@cc.rim.or.jp>
date Sun, 06 Apr 2008 04:02:01 +0900
parents bbc77ca4def5
children
line wrap: on
line source

1.3.3 付属語について

  jserver(1) は、立ち上がりの時に、付属語情報を読み込む。
このファイルは、jserverrc(4),wnnenvrc(4),wnnenvrc_R(4),wnnenvrc_Roma(4)の中に
書いて指定することもできる。また、指定がなければ、デフォルトのファイル
(/usr/local/lib/wnn/ja_JP/dic/pubdic/full.fzk) が読み込まれる。

  jserver が、読み込むことのできる形式の付属語情報のファイルを、データ形式付属語
情報(fzd.data(5)) と呼ぶ。これは、UJISコードのテキストファイルであるため、ユ
ーザが、これを書くことも可能であるが、ユーザが、付属語の接続の仕方を調べたり、自
分で書き換えたりするためには、もっと分かり易い形式で書かれたファイルが望まれる。
そのために、UJIS形式付属語情報(fzk.u(5)) と呼ばれるファイルが、用意されて
いる。これは、ある付属語がどのような自立語や付属語と続くかという情報をより分かり
易いように書いたものであり、付属語情報の中に間違いがあってそれを修正したい時、あ
るいは、自分で付属語を定義し直したい時に、容易に書き直すことができるようになって
いる 。このUJIS形式の付属語情報を atof(1) コマンドによって、データ形式の付属
語情報に変換する。

  ここで、簡単に、付属語情報について説明をしておく。
それぞれの付属語は、読みと、その付属語が属する品詞と、その付属語の前にどのような
品詞の付属語が来れるかという情報を持っている。どのような品詞があって、その品詞に
どのような語が属しているということも定義する。ここでは、品詞を付属語を後ろへの接
続の仕方によって分類している。このため、日本語文法における普通の意味の一つの付属
語でも、活用形が違うと別の品詞の別の付属語として取り扱うし、普通に言う品詞とは少
し異なっている。また、付属語の意味を拡張して、活用をする自立語の活用語尾も付属語
として取り扱っている。そして、デフォルトで用意している付属語情報では、活用をする
付属語は、語幹と活用語尾に分けて、別々の付属語として取り扱っている部分がある。こ
れは、活用形ごとに別々の付属語としたのでは、その付属語の前に来れる付属語の情報を
複数の場所で持つことになるので、付属語情報の保守が難しくなるのと、もともと別々の
付属語の語尾であっても、読みが同じで、同じ品詞に属していれば、それらをまとめて一
つの付属語として扱うことができるためである。また、「、」と「。」も付属語として扱
っている。

  付属語情報としては、個々の付属語の情報の他に、文節の終わりにどの品詞の付属語が
来れるかという情報が必要である。この情報を終端ベクトルといい、定義する必要がある。
終端ベクトルとして、どのようなものを使うかは、それまでの解析結果によって、異なる
ため、5種類の終端ベクトルが定義できるようになっている。しかし、現在は、連文節解
析のためのものと、単文節解析のためのものの2つだけである。