トップ 差分 一覧 ソース 検索 ヘルプ PDF RSS ログイン

採録基準

それぞれの辞書にはどのような語を入れてゆくのか、ゆかないのか?

ここでは、MLフォームなど各所でのこれまでの議論や、実際の辞書編纂を通して得られた経験を踏まえつつ、それに基いて作業を進めてゆけるような一定のガイドラインを形成することを目指します。

関連項目

「単語」の定義

この項では、「単語」という言葉は SKK のエントリを構成する要素としての候補を指すものとします。つまり、

ていしゅのすきなあかえぼし /亭主の好きな赤烏帽子/

きにやm /気に病/

の「亭主の好きな赤烏帽子」「気に病」は、文法的にいくつの単語と見るかには関係なく、それぞれ全体で一つの単語と呼びます。

SKK の特性を考えた場合、文節の伸縮や切り直しの考えられない単位、言い換えれば、変換できなかった場合に切り直しよりも単語登録を選ぶであろう単位を「単語」ないしは「入力単位」と考えるのが適切かもしれません。

L辞書

原則として、SKK(かその同等品)と、この辞書を入れれば一通りの日本語入力が出来ることが求められる辞書ですので、編集方針も網羅的なものとなります。

  語彙の範囲

とはいっても、専門用語辞書ではありません。現代人が日常生活で使う語から「一歩踏み込んだ」ところまでが採録範囲と言っても良いでしょう。

たとえば、「急性化膿性髄膜炎」は、お医者さんなら欲しいと思うかもしれませんが、それほど知名度の高い病気でもないですし、この水準の病名は無数にあるでしょうから、まあ一般人の辞書に必要なレベルではないだろうと言えます。

しかしながら、一般人でも「化膿性」の病気や、何らかの「髄膜炎」に接する機会はあるかもしれません。普段は使わないだろうけれども、必要な場合の充分に考えられる語なら入れておけば良いわけです。

莫大な医療用語を必要とする方でも、「化膿性」や「髄膜炎」のようなパーツが準備されていれば、ストレスなく必要な語彙を組み立ててゆけるでしょう。「急性化膿性髄膜炎」も一発で変換できる辞書が欲しい、という要望は医学用語辞書で満たせば良いわけで、ただその医学用語辞書を作るためのベースになる語はL辞書が供給する必要があるわけです。

"Kyuusei Kanousei Zuimakuen" なら充分に快適と呼べるでしょうが、 "Kyuusei Kanou >sei Zuimaku >en" では操作も繁雑ですし、同音語も少なからず出るので大変というわけです。

また、「後天性免疫不全症候群」も同じくらい長いですが、これは一般人でも使う場合は少なくないでしょうから、入れておいても問題はないでしょう。"Koutensei Mennekifuzen Shoukougun" でも充分快適ですが、"Koutennseime<TAB>" で入れられれば便利でしょうし。("/aids" で入れられればもっと便利である、という考え方もありますね)

同様のことが、他のあらゆる領域の専門用語や、口語・古典語などについても言えるでしょう。ほとんどの人が使うであろう、もしくは使わないけれども、いつでも使われる可能性のある中核的な言葉を完全に網羅し、その上で、個々の使用者が使うかもしれない特殊な言葉についても、自然に組み立てて使ってゆけるようなところまで整備できれば良しとすべきでしょう。

  読みと単語の対応 (見出し一致の原則)

読みを入力して単語を得るための辞書なので、abbrev などの例外を除いて、読みと単語は基本的に忠実に対応している必要があります。日本語入力の辞書として、「単語」を読むと「読み」になる、という関係が前提されているわけです。

当て字

当て字の場合は、この関係は微妙になります。

うつr /伝染/

ためらu /躊躇/

極論すれば、訓読みというのは全て「当てた」読みです。最終的には、その読みがどのくらい普及して「読み」として認識されているかを判断することになるでしょう。

連想

見出しと変換後の単語に直接の(読みとその表記という)対応関係が存在しないペアを、連想ペアと呼んでいます。

ここまで /----- ここまで ----- ここまで ----- ここまで ----- ここまで -----/-------------------------------ここまで-------------------------------/

とうだい /灯台/東大/当代/等大/燈台;「灯」異体字/登第/東台/東京大学;※abbrev/

さんがつ /三月/3月/弥生/

連想ペアは無限に作れる上に、(特に、ユニークではないエントリでは)見出しと単語の対応関係が崩れることから望まない人も多いので、原則としてL辞書とは独立した連想辞書に採録してL辞書には入れない方針です。

ただし、「さんがつ /弥生/」「とうだい /東京大学/」のようなものは、実用性の高さを鑑みて現段階では残してあります。連想ペアについては、今後も議論が必要と思われます。

  適切な入力単位の範囲

辞書に入れていく、入力単位としての言葉の目安として、

  • 変化する部分を内に含まないこと
    • 末尾の変化部分は okuri として処理されます
  • 一つの意味的なまとまりを形成していること

などが挙げられます。

「亭主の好きな赤烏帽子」の場合は明らかに3語に分解できますが、実際にはこれは完全に定型化して定着した表現で、一部を他の語に置き換えることはあまり考えられないので、L辞書の扱う単語と見做しても問題ないでしょう。

(「亭主の好きな甘納豆」などともじった表現はもちろんありえますが、それは敢えて定型から逸脱しているわけですから、ここでは考慮する必要はないでしょう。ユーザも、まさかそんな表現を一語として入力しようとは思わないでしょうし。)

「気に病(む)」の場合も同様で、ニ格と動詞の組み合わせではありますが、これ全体で一つの成句を成しており、「気」を他のものに変えては表現自体が成り立たなくなってしまうので、一つの語と見做すことは可能でしょう。

これが「肺を病(む)」になると、「肺」の代わりに「胸」「心臓」「癌」など多様な名詞を入れることができるので、一語とは見做し難いと思われます。

あおやまほうめん /青山方面/

あさくさほうめん /浅草方面/

のようなものも、無限に作れるので一語としては見做さない方向です。むしろ、「方面」の下接性に着目して、「>ほうめん /方面/」のようなエントリを入れる方が実用的と言えそうです。(「接頭辞・接尾辞の拡張的用法」の項も参照)

関連し合う語のグループ (全か無かの原則)

一般に、「○○が入っていれば△△も入っているだろう」と考えられる言葉のグループというものがあります。

たとえば、

きたまど /北窓/

が変換できたとすれば、使用者は

みなみまど /南窓/

ひがしまど /東窓/

にしまど /西窓/

が入力できることも期待するでしょう。もしそれが出来なければ、使用者はL辞書に採録されている語の予測がしにくくなり、入力効率を落としてしまうことになります。こうした関係にある語は、全てを採録するか、あるいは全てを削除することが望ましいでしょう。この例の場合は、たかだか4語で網羅でき、競合もないわけですからまとめて採録しておけば良いでしょう。

(このような状況に遭遇した場合は、是非フォームに登録希望もしくは削除希望をお出しください。)

上の「青山方面」のような場合、万単位で生成できる《地名 + 「方面」》の形の語を全て網羅することは現実的ではなく、使用者の側から見ても「どの地名なら『方面』付きで変換できるのか」を知るすべが存在せず、入力単位としては使いにくいので、L辞書には入れない方が良いと言えます。

「どんな語が一発で入力できて、どんな語ができないか」「どんな語がSKKでの入力単位に相応うのか」を把握しやすくすることは、変換用の辞書を育ててゆく上で極めて重要なことであると考えられます。(「hukugougo辞書」の項目も参照)

  ヒット数=ウェブ上の頻度

ある語をサーチエンジンで検索した時のヒット数は、その語が現実にどのくらい使われているかを知る一つのよすがとなります。

特に、長めの複合語やフレーズに近い単語については、それがひとまとまりの表現としてどのくらい定着しているかを知る上でヒット数は重要な判断材料となります。

永続性

ただし、寿命の極めて短そうな時事用語・新語・流行語の類には注意が必要です。五年後になってもある程度使う人はいそうか、くらいは考えておいた方が良いでしょう。

[時事][新語]などのマークを付けて採録しておいて、後で死語となっていないか点検するというのも手です。

えんこう /援交;[新語]援助交際=未成年買売春/

  存在確認

専門用語のように、パッと見てそれとわからないような語は、何らかの形で実在を確認する必要があります。実際に使われている語なら、サーチエンジンでの検索結果をざっと見ればおおよその見当はつきますが、はっきりそれとわかる解説やリンクが添えられていれば大いに助けになります。

複合語とは見做されにくく、分割しての入力も考えにくい(2・3文字の)短い語に関しては、多少頻度が低くとも存在が確かであれば原則として採録してゆくのが良いと思われます。

  自動コミット

ウェブ上で提供されている大辞林・大辞泉・デイリー新語辞典のいずれかに掲載されていると確認された(「○」のついた)語は、毎週末に自動的にL辞書に採録されます。

国語辞典に掲載されている語彙の中には実際にはまず使われる機会のなさそうなものも少なからず含まれており、国語辞典に載っている=有用な語であるとは必ずしも言えないのですが、登録希望が出るということは、実際に少なくとも一人はその語を必要としていると言えるわけなので、その語をL辞書に採録しておくことに問題はないと考えられます。

つまり、「メジャーな辞書に載っており」、かつ「実際に登録希望を出す人がいる」ことが自動コミットの条件と言えます。(当たり前のことのように見えるかもしれませんが、これは辞書の語彙をそのまま引き写すのとは大きく異なっています)

ただし、国語辞典からは往々にして平易な日常語や平易な表記が抜け落ちていることは指摘しておかねばなりません。国語辞典は本質的に難語辞典なのです。

また、大きな国語辞典を使うことが必ずしも良い結果に結び付くとは限りません。日本国語大辞典や諸橋大漢和には日本人のほとんどが一度も目にせず一生を終えそうな語がゴマンと載っていますが、これらを採録していってもL辞書の性能は恐らく低下こそすれ向上はしないでしょう。

自動コミットは一つの有力かつ機能的な採録基準を提供してくれていますが、それが全てではありません。

(「人名の自動コミット」も参照。)

  単語の長さのジレンマ (競合の考慮)

  • 長い語ほど、可能な組み合わせの数は多くなる
  • 短い語ほど、同音異義語が多くなる
  • 短い語ほど、辞書にない場合に入力が厄介になる

長い語 = 競合のあまりない場合

たとえば、hukugougo辞書にある

いっぱつかいかんがた /一発快感型/

という言葉はあまり使われていないようですし、意味もよくわかりませんし、分割して"Ippatu Kaikan >gata" と入れるのも容易なので、エントリとしての価値はあまり高くないと言えそうですが、別にこれがあることで他の何かが入力しづらくなったりもしないので、まあL辞書に残っていたとしても毒にも薬にもなりません。

こうてんせいめんえきふぜんしょうこうぐん /後天性免疫不全症候群/

になると、さらに長ったらしいのですが、ほとんどの人にとって語義は明確と思われ、使われてもいるようですから、入れておくことに何ら問題はないでしょう。

また、上でも出て来ましたが

きにやm /気に病/

のようなエントリの場合、「き /気/」と「やm /病/」があれば充分なようですが、実際には「木に止む」などなどと出てしまうので、このエントリが存在する意味は小さくありません。

一般に、見出しが長くなるほど、情報量が多くなるので結果として誤入力・誤変換の確率は下がり、競合の可能性も減ることになります。

短い語 = 競合の激しい場合

逆に、

こうしょう /交渉/公称/高尚/考証/校章/公証/工商/鉱床/工廠/哄笑/口承/厚相/工匠/公章/公傷/咬傷/高承/公娼/行賞/高唱/後章/口誦/好尚/洪鐘/巧匠/康正;年号(1455-57)/光昭/

のようなエントリの場合、競合が非常に激しく、候補数が増えることは確実にこのエントリの機能性を落としていくのですが、どの候補にも明らかな存在理由があり、採録を拒否することも削除することもできそうにありません。

たとえば、「好尚」を一文字に分解して入れろというのは不可能ではありませんがかなり厳しいです。"Kou Shou" では地獄を見ますし、"SuKi<C-H>Nao" ではほとんどパズルです。

(ちなみに、このような場合 skk-hint.el が素晴らしい働きをします。"Koushou;SuKi")

このような競合のあるエントリの場合、「こうしょう /厚生大臣/」のような特殊なペアは明らかに「ない方が良い」と判断されることになるでしょう。(「出ないことも性能」)

まとめると、長い複合語は採録を見合わせる理由に乏しく、短い語は存在する語の忠実な変換であれば、機能性が落ちても採録しないわけには行かずというわけです。

では、複合語の採否はどのようにして決めてゆけばいいのか?

 SKK-JISYO.hukugougo

変換後の文字数が多く、国語辞典に立項されておらず、かつ利用頻度の低いと見られる語を機械的にL辞書から抽出し、複合語辞書 SKK-JISYO.hukugougo に移しています。

現在、L辞書約20万語に対し、この方法で削除された語は4000語で、同様にして2万前後の語は辞書の機能性をほとんど損ねることなく削除できるものと見られます。

ファイルサイズは問題か?

しかしながら、実際には「たかだか」数万語の増減がメモリ消費や処理速度に与える影響はほとんどありません(それが問題になるような環境ではML辞書を使うでしょう)し、また上で見たように、変換後の字数が多いいわゆる big word はエントリとしては unique かそれに近いのが普通なので、削除を進めても変換効率の面から見てもさしたる向上は望めません。

低頻度な複合語の削除を行う最大の目的は、それによって逆にどのような語を採録してゆけば良いのかの基準を浮かび上がらせることにあると言っても良いかもしれません。

先の「一発快感型」も特に弊害はありませんが、ヒット数や利用者の言語感覚を鑑みて、L辞書で一語として扱う意味はあまりないとして不採録となったわけです。

こうした形で、収録されている語の「粒を揃える」ことにより、辞書の使用者が「どのような語は一発で変換できて、どのような語はそうでないのか」を実際の使用を通じて把握しやすくすることができます。「あるだろう」と思った語がないことは変換精度や信頼性を損いますし、誰もあるとは思わない語はあっても利用されません。こうしたケースを減らしてゆくことはL辞書、延いてはSKKそのものの性能の向上に繋がるはずです。

日本語の場合、語を繋ぎ合わせてゆくことで無限に語彙を生み出せるので、潜在的には辞書サイズは無限大になりうるわけですが、使われるであろう複合語は採録してゆく一方で、頻度・機能性に劣る語を排除できる枠組を設けることで、発散させることなく健全に辞書を育ててゆくことができるでしょう。

 単漢字

漢字の数は莫大ですが、音読みの音の種類は限られています。結果として、膨大な数の単漢字がずらずらと並ぶ、いわゆる「単漢字エントリ」が生まれることになります。(eg.「こう」239、「しょう」174、「そう」138)

一通りの文字は入力可能にしておく必要があるので、標準的な音訓のものは原則として全て採録すべきでしょう。

ただし、たとえば「そう /将/」(呉音の一つ)のように、ほとんど用途がなく一般性に乏しい音までは必ずしも必要ではないと思われます。大半の人はこの字に「そう」という読みがあることすら知らないでしょうし、誰でも知っている「しょう」で入れればすぐに出て来ます。

また、熟字訓を分解したようなペアも、L辞書の用途を考えれば必要ないと言えるでしょう。(逆に、単漢字主義のS辞書などでは必要かもしれません。)

じょう /星/

「みょうじょう /明星/」の一部らしい

単漢字入力のための代替手段:

 接頭辞・接尾辞

造語要素として、特に他の語や造語要素の前後に付いて新しい語を作る語素を接頭辞・接尾辞と呼んでいます。(こうした、新しい語を作る力のことを「生産性」と呼びます)

文法用語としての「接頭辞」「接尾辞」は、それ単独では意味をなさないか他の意味になっていることも条件になりますが、SKK ではこの限定は必ずしも必要なものではありません。

>か /化/下/科/課/家/可/歌/禍;薬禍,女禍,文字禍/

文法的に接尾辞と呼ばれるものは「化」と「下」だけ(それすら単なる漢字の複合であるとして認めない文法も多い)ですが、SKK では他の 6つも接尾辞ペアとして収録しています。

「か」単独では 94 candidates ありますが、「他の語の下につく『か』」という指示を ">" で表すことで、8 candidates に絞り込むことができるわけです。(尤も、「家」なんかは "Ie " で入れた方が早いですけど)

拡張的

同様の考え方を、漢字一文字でない語についても当て嵌めることができます。

じどう /自動/児童/耳道/侍童/

じどう> /自動;自動改札,自動楽器,自動改札/

「自動」も「児童」も日常的に良く使われる語ですが、「自動」の方は他の名詞に広くついて自動的に行われる何かを表す語を形成するので、この性質を「接頭辞的」と見做して ">" を付与しているわけです。

「児童」も「児童福祉」などの複合語を作りますが、あくまで「児童に関する」の意なので、「他の語に広くついて」とは言えないでしょう。

これによって、「じどう○○」と言う時には常に「自動」の方を引き出すことができます。

また、

あu /合/会/遭/逢/遇/會/

>あu /合/

のように、複合動詞を作る補助動詞的な語などを okuri 付き接尾辞として使うことも考えられます。

「合う」が「渡り合う」「喜び合う」などのように無数の複合動詞を作る力がある(=生産性が高い)のに対し、「会う」にはそのような性質はありません。

これを利用して、"YorokoBi>Au" で「喜び会う」などを確実に排除して「喜び合う」を得ることができます。

なお、こうした語を接辞と扱うことに抵抗を感じる・馴染めない方もおありかもしれませんが、これらのエントリの存在がそうした方の入力に邪魔になることは基本的にないはずです。たとえば、「じどう> /自動/」を加えることで、「じどう」で「自動」が入れられなくなるわけではないですから。

 造語要素

独立した語ではなくても、入力の便宜のために独立したペアとして採録しておいた方が良いものもあります。

助数詞

まんにん /万人/

にちまえ /日前/

数字と結合させて使う広義の助数詞です。数値変換が可能であっても、数字部分以外だけのエントリの必要性がなくなるわけではありません。たとえば、「5万人」の入力方法として "Q5 Mannnin" も自然なものですし、「数十日前」を入力するのには数値変換は使えません。

連濁

どおs /遠/通/

ばなし /話/

「待ち遠しい」「立ち通し」「離婚話」などを入力する際に必要になります。もちろん、なくても頭の中で連濁を解消して "Rikon Hanasi" などとして入力は可能ですが、これらのエントリが存在することで、思い浮かべた通りの音のままで入力できるようになります。(手書き感覚が売りの SKK では、このことの意味は小さくないと考えられます。)

ちなみに、この連濁という現象は、それによって前接する語と結合して一語になることを示しているわけで、言ってみれば日本語に内包された接尾辞変換に近いものがあります。連濁形の採否を考える際にも、接尾辞変換同様に「生産性」の概念を応用することができるでしょう。良く連濁形になるものをペアとして認めてゆけばよいわけです。

>ばなし /話/

その他、語の一部

造語要素として多少不自然でも、入力単位としての実用性を充分に見込めるものはあっても良いでしょう。

ろんてき /論敵/論的;(複合用途) イデア-/

いちいち「○○Ron >teki」とやる手間を合理的に省けます。

不適切な例

ただし、単に熟語をぶつ切りにしたようなものは不可です。あくまで入力に役立つものでなくてはなりません。

ども /供;「子供」の一部分を切り出した?/

こくりつじゅんかんきびょう /国立循環器病;「国立国立循環器病センター」の漢字部分?/

 数値変換

#えき /#3駅;渋谷まで三駅/#1駅/#0駅/#2駅/

助数詞と見做せる語は原則として全て数値変換用エントリになり得ますし、また実際に必要です。

現状では、特に理由がない限りは「#0」「#1」「#2」「#3」全てを揃えておくのが良いようです。

ただし、競合がある場合は、その競合が4倍に増幅される問題があります:

#そう /#3層/#0相/#0層/#3艘;船/#1艘;船/#3双;手袋/#1双;手袋/#0艘;船/#1漕/

#だい /#0台/#0代/#1台/#3代/#3題/#0題/#1代/#3台/#3大/#1大/

ひとり /一人/独り/1人/独/獨り/1人/ひとり/

いちにん /一任/一人/

ふたり /二人/2人/2人/

ににん /二人/

さんにん /三人/3人/3人/

よにん /余人/四人/

ごにん /誤認/五人/5人/

ろくにん /六人/

しちにん /七人/

ななにん /七人/

はちにん /八人/

じゅうにん /住人/重任/十人/

 abbrev

"abbrev" は "abbreviation" の abbreviation で、略語入力を意味するはずですが、実際には / で入力する英数文字を見出しにしたエントリ全般をこう呼んでいるようです。(逆に、仮名を見出しにした略語ペアは、abbrev とは呼ばず単に略語ペアや連想ペアと呼んでいます。)

この手のエントリは仮名から変換して行う通常の日本語入力とは本質的に一切競合しないので、多少の冒険は許されるのではないかとも思われます。

文字通りの略語

dB /デシベル/

NPO /非営利組織/

RSI /反復運動過多損傷/

「NPO」未収で、「RSI」既収なのです。

単語が、一般のエントリであったとしたら採録水準に達しないだろうと思われる語は、abbrev エントリとしてもやはり採録水準には達しないでしょう。

また見出しは、ある程度広く認知されている、使用者が思い付けるようなものである必要があります。

cs /コンピュータソフトウェア/control-sequence/コントロールシーケンス/コンピュータサイエンス/コミュニケーションサーバ/コミュニケーションサーバー/セシウム/Cesium/

in /イン/∈/インチ/Indiana/インディアナ/インジウム/Indium/

不便な "abbrev" には存在理由がありません。略語ペアを作る時は、エントリとしての機能性も重視する必要があります。

連想的

いわゆる abbrev なエントリのうち、連想変換に近いものの扱いはほとんど基準らしい基準もなく、今後の議論が待たれます。

ih /帰納法の仮定/

cut /カット/------------------------( C U T H E R E )---------------------------/-------------------- ここから --------------------/CUT/切り取り/---- cut here --------------------------------------------------/------------------------CUT-HERE---------------------------/------------>8------------ C U T H E R E ------------>8------------/

カタカナ語変換

英単語からそのカタカナ表記を作るタイプの abbrev エントリについては、必要なものであるというコンセンサスは形成されていると思いますが、まだまだ明らかに弱く、実用の域には達していない印象があります。

iran /イラン/

linux /リナックス/リーヌックス/

miniature /ミニチュア/ミニアチュア/

どれも未収です。

変換結果がカタカナ語として定着しているものは、全て採録対象として良いと思われます。このタイプの変換を多用なさる方は、是非ユーザ辞書を(該当部分だけでも)ご提供下さい。大きな貢献となります。

和英変換

原綴からカタカナ語を作るカタカナ語変換の逆に、カタカナ語から原綴を出すタイプの変換も考えられますが、こちらは一般語と競合を起こす虞れがある上、「日本語入力」というL辞書の本分からは外れる部分もあります。

現在、例外的に元素名・音楽用語・植物のリンネ分類などがこのタイプのペアやエントリを持っています。

びおとーぷ /ビオトープ;野生生物の生育場所。ギリシャ語のBIO(生物)とTOP(場所)の合成語/biotope;英語/Biotop;独語/

びすます /Bi/Bismuth/

びゃくだんもく /ビャクダン目/Santalales/

ぴあにっしっしも /pianississimo;ppより弱く/

競合のある例:

ず /図/頭/酢/圖;「図」の旧字/厨;(呉音)厨子/廚;「厨」の異体字/逗;(呉音)逗子/豆;(呉音)大豆/事;好事家/津;会津/鶴/寿;?/讐;(呉音) 復讐/讎;「讐」の異体字/Figure/

まんがん /満願/満貫;[麻雀]/万巻/Mn/Manganese/

現状では、上に挙げた例を除くとL辞書で仮名を入れて原綴が得られることはほとんど期待できません。もしこの手の変換をL辞書で本格的にサポートするとするなら、まず abbrev のカタカナ語変換を充実させてから、その見出しと単語を機械的に入れ替えてやると良いでしょう。

 記号変換

特殊記号は、「正しい読み」を想定しづらいのですが、入力の便を図るために、通用していると思われる読みを見出しにしたペアとして採録しています。

integral /∫/∬/

せきぶん /積分/石文/∫/∬/

登録の際も使用の際も、競合がなるべく少なく、かつ覚えやすい見出しを選ぶのがコツです。

 かな混じり

語の一部がかな

かな混じりの語でも、全体として一語を形成していれば入力には役立つので採録の範囲内です。

おはし /お箸/御箸/

かなぐりすt /かなぐり捨/

げーむせい /ゲーム性/

そのた /その他/其の他/

全てひらがな、またはカタカナ

全てひらがな、またはカタカナの語は際限がなく、「変換」の必要もないのでL辞書には採録していません。

こんぴゅーたー /コンピューター/

さちこ /さちこ/

ただし、自動補完のことなどを考えると、「コンピューター」のような語が本当に無価値かは議論の余地があります。別途、カタカナ語専用の辞書を提供するのも手かもしれません。

交ぜ書き

ここで言う「交ぜ書き」は、t-code で使う SKK-JISYO.mazegaki のように、

あきは原 /秋葉原/

漢字混じりの見出しから単語を得るものではなく、出力結果の単語の一部が、漢字からかなに意図的に書き換えられているものを指します。

らち /ら致/

当用漢字の時代には、当用漢字以外の漢字の使用は強く制限されており無数の交ぜ書きを生み出しました。常用漢字の現在にはそのような厳しい縛りはなく、よって常用漢字外であるというだけでは交ぜ書きを採録する理由には不充分です。

しかし、常用漢字とは別の水準の問題として、難字・難読、同字異音語の存在などの理由で一般に広く交ぜ書きが行われているものは、SKK の単語としても認めてゆくのが良いと思われます。

(「微風」と変換してから「そよ風」表記を得るのは結構な手間ですから。)

そよかぜ /微風/そよ風/

すりばち /擂鉢/擂り鉢/摺鉢/すり鉢/

ぶっころs /ぶっ殺/ブッ殺/打っ殺/

また、法律や各専門分野で通用力を持つ交ぜ書きやその他の特殊表記も必要でしょう。

かくせいざい /覚醒剤/覚せい剤/

けんぺいりつ /建蔽率/建ぺい率/建坪率;建蔽率/

りんさん /リン酸/燐酸/

他に、文字コードの制限で交ぜ書きにせざるを得ない場合もあります。

びていこつ /尾てい骨/

 人名・地名・固有名詞

これらはそれぞれ専用の辞書が別途用意されていますが、単独でも一通りの入力は出来るようにする必要があるというL辞書の性質を鑑み、ある程度一般的な語であればL辞書にも採録してゆくのが良いと考えられます。

人名であるからという理由で「さとう /佐藤/」を削除しては使い物になりませんから。

 活用形

活用形の網羅

okuri-ari の用言に関しては、可能な活用形は原則として全て入れておく必要があります。

かたりあu /語り合/

があれば、

かたりあe /語り合/

かたりあi /語り合/

かたりあo /語り合/

かたりあt /語り合/

かたりあw /語り合/

も全てなくてはなりません。そうでないと、「語り合う」は入力できるのに「語り合って」は入力できないといった不都合が生じます。

自動コミットの場合、原形しか拾うことが出来ないのでこれが特に問題になります。

サ変動詞・形容動詞

ただし例外として、サ変動詞の s と、形容動詞の [dns] は入れない方針のようです。語幹を独立語と見做せる=okuri-nasiで入力できることと、サ変化・形容動詞化する名詞は無数にあって収拾がつかなくなることが理由と思われます。

例外として、単漢字エントリは扱いにくいため、名詞部分が漢字一文字のサ変動詞や形容動詞は okuri-ari でも採録している場合があります。

きゅうs /窮/給/休/

きゅうn /急/

きゅう /急/旧/灸/級/球/給/休/九/宮/仇/究/鳩/久/柩/疚/丘/蚯/糾/赳/弓/窮/穹/躬/求/救/裘/逑/及/吸/汲/笈/岌/烋/恷/貅/摎/樛/翕/歙/皀/邱/臼/朽/泣/嗅/糺/鬮/舊/9/扱/

単漢字以外でも、サ変であることを利用した候補の絞り込みは有効な場合があるので、このあたりの扱いも考えてゆく必要があるかもしれません。

きょうか /強化/教科/教化/狂歌/供花/鏡花/橋架/凶禍/莢果/

きょうかs /強化/教化/ ;というのがあれば便利?

 DDSKK独自仕様をどこまで考慮するか?

L辞書は DDSKK の一環として開発されていますが、DDSKK が emacs のみで動き・使われるのに対し、L辞書はその他のあらゆる SKK 互換ソフトウェアや派生ソフトウェアでも使用されるので、辞書編纂にあたってはそうした用途もある程度配慮する必要があります。

たとえば、DDSKK では "MayoCchau" と入力した場合

まよt /迷/

から「迷っちゃう」を生成してくれるので

まよc /迷/

は不要ですが、他のほとんどの実装ではこうした変換はサポートされていません。

他の実装でヘボン式で口語を入力する人のために、当面 "c" 付きの okuri-ari はある程度入れておく必要があるわけです。(寛容さの原則)

 旧字・異体字

旧字や異体字をどのくらい入れておくかは難しい問題です。最終的には、その表記がどのくらい行われているかを個々のケースについて見てゆく他はないでしょう。

現代でも旧字の方が良く使われる場合

りゅう /竜/龍;「竜」の旧字/

紛らわしい旧字

ずいひつ /随筆/隨筆;旧字/

区別なく使用されていてほとんど使い分けのない異体字

けいぶ /頸部/頚部/

ML辞書

ML辞書のヘッダより:

M 辞書と L 辞書の中間サイズの辞書、という意味で ML 辞書と名付けまし
た。PDA などハードディスク (メモリ) が限られた機種でも使用できるよ
う、1MB を超えないサイズを維持することを目標としたいと思います。
この辞書の origin は、L 辞書です。
(1)L 辞書から広辞苑第四版に掲載されている語を抜き出し、
(2)L 辞書から接頭辞、接尾辞を抜き出し、
(3)ひらがな 10 文字以上のエントリを削除し、
(4)都道府県、県庁所在地を追加し、
(5)記号類をいくつか追加し、
(6)更に S 辞書のコンテンツを追加
して作成しました。

L辞書から「大きな複合語」を除去する一方で、短めの語は広辞苑に掲載されている限り全て残すことで、言葉を適宜短く切ってやれば十二分に快適な入力が出来る辞書になっています。

ただし、採録基準を広辞苑に依拠した結果、たとえば

ましょう /魔障/

ばくりょう /曝涼/

のような低頻度な文語や漢語が多く含まれる一方で、

ぼくたち /僕達/

わたしたち /私達/

のような、日常的だが国語辞典では見出しを与えられていないような語は抜け落ちてしまっている部分もあります。

広辞苑に載っていても頻度の低すぎる語を削除し、逆に広辞苑になくても頻度の極めて高い語を採録することで、サイズを増やすことなくML辞書をさらに使い易いものに調整できる可能性があります。

(ML辞書を実際にお使いの方のフィードバックが望まれます)

M辞書

S辞書

M辞書とS辞書については committers.txt 参照。

stab: これらの辞書にお詳しい方、執筆をお願いします!

人名辞書

人名辞書は、L辞書同様に利用者各位から寄せられたデータに加え、(非商用の) Wnn と、人名録サイトのデータも利用しています。

さらに、辞書登録・削除希望単語入力フォームに人名として出された登録希望も原則として全てそのまま収録しています。

  人名の自動コミット

人名(姓・名・その他の人名)として出された登録希望は全て jinmei 辞書に自動コミットされます。人の名前は「存在しない」ことの証明がほぼ不可能なため審査のしようがないので、性善説を採っているわけです。

姓と名は網羅的に

漢字表記と読み(見出しと単語)をセットにしてウェブ検索し、頻度順にソートする方法が確立されているので、珍しい人名を登録することによる変換精度の低下はあまり心配ありません。日本人の姓名で、変換出来ないものがあるのに気付いたらお気軽に登録希望をお出し下さい。

あいだ /愛田;人名,[3870]/相田;人名,[3490]/藍田;人名,[899]/会田;人名,[497]/合田;人名,[300]/會田;人名,[86]/阿以田;姓,[1]/あいだ;人名,[124000]/

フルネームの扱い

ただし、フルネームに関しては、まさか1億3000万人分のお名前を全て収録するわけにもいきませんので、多くの人が入力するであろう、名の通った方のもののみにしましょう。

フルネームの登録希望には、それが誰であるかの annotation があると良いでしょう。

さかぐちあんご /坂口安吾;(1906-1955) 作家。『堕落論』/

全てひらがな・カタカナ・alphabetの人名

上の例の「あいだ /あいだ;人名/」のようなペアには SKK 辞書としての意味はあまりなく、L辞書などには採録されていませんが、人名辞書や一部その他の専門辞書には残されている場合があります。

Wnn・Canna などから提供して頂いた語彙の中にあったものが主で、

  • 専門辞書の末尾にある候補はほとんど邪魔にならないこと
  • 機械的な削除はいつでもできること
  • SKK 以外の目的に辞書を使う時には役に立つ可能性があること

などから、登録順を一律に末尾にした上で残しています。

地名辞書

地名辞書は、日本郵政公社提供の郵便番号データを元に作られていますが、昔の地名や新興の地名、住所としては出て来ない地域名などの追加をフォームでも募っています。

地名の厳密な存在確認は困難なのですが、サーチエンジンで検索してみて使われていそうならほぼそのまま採録しています。

判断の分かれるものとして、

  • 外国の地名や都市名など
  • 河川や山脈など、地理的な名称(地名か固有名詞か?)

などがありますが、現在は大らかに採録しています。

連想辞書

他の辞書と違い、連想辞書には見出しと単語との「正しい」対応関係というものが想定できません。

  • パッと見て連想関係がわかり、
  • エントリとして使い途があり、
  • L辞書などのエントリとの競合がひどくない

ものなら原則として何を入れても構わないでしょう。

ただし、どういう「連想」なのかの annotation なしでは暗号表になってしまうので、登録希望をお出しの際は連想関係がはっきりとわかる註釈を必ず付けて下さい。

固有名詞辞書

連想辞書と固有名詞辞書に関しては、L辞書にはそぐわないけれど使い途はあるものを入れておく辞書という性質のものなので、原則として「来るものは拒まず」です。

それで問題が出て来たら、その時に改めて採録基準を議論すれば良いでしょう。結局のところ、基準というのはそういう風にしてしか作れないものです。


最終更新時間:2011年04月06日 04時05分39秒