データベース

データについて

ファイル形式と文字コード

本文データはテキストファイル形式です。
文字コードは「Shift-JIS」と「Unicode」の2種類使用し、それぞれデータを作成しております。
検索の便宜を図るため、底本の字形を再現することは目的とせず、一字形一コードの対応を確保することに努めました。

なお、現在公開中の「Unicode」データは『ZenBase CD1』所収の繁体字中国語（Big5）の禅籍を単純にコンバートしただけであり、ご使用には注意が必要です。

本文フォーマット

大部分のデータにおける本文フォーマットには「app形式」を採用しております。これは当研究所元副所長の Urs App 氏が提唱されたもので、文の切れ目を句読点で前後の行に移動する形式であり、これによって検索の便宜を図ることができます。

データはすべて ZIP 圧縮して登録されております。解凍してご利用ください。

なお、解凍後のファイルの拡張子は「.app」となっております。ファイルが開けない場合は拡張子を「.txt」に変更してください。

外字表記方式

以前作成されたデータの外字表記は「漢字ベース番号」のまま使用し、新たにUnicodeに変換したデータには諸橋轍次『大漢和辞典』（大修館書店）および『今昔文字鏡』（エーアイ・ネット開発・製作、紀伊國屋書店発行）の漢字番号である「文字鏡番号」で表記しました。

（例）&M012345;

先頭は「&」、終端は「;」、「&」に続く「M」は『大漢和辞典』および『今昔文字鏡』の番号であることを示します。
6桁の漢字番号は000001番から049964番までが『大漢和辞典』の漢字番号、049965番以降は「今昔文字鏡」の漢字番号です。

▲page top

　Last Update: 2004/09/24