ホーム > データベース > ダウンロード > データについて
データベース |
データについて |
ファイル形式と文字コード |
本文データはテキストファイル形式です。 文字コードは「Shift-JIS」と「Unicode」の2種類使用し、それぞれデータを作成しております。 検索の便宜を図るため、底本の字形を再現することは目的とせず、一字形一コードの対応を確保することに努めました。 なお、現在公開中の「Unicode」データは『ZenBase CD1』所収の繁体字中国語(Big5)の禅籍を単純にコンバートしただけであり、ご使用には注意が必要です。 |
本文フォーマット |
大部分のデータにおける本文フォーマットには「app形式」を採用しております。これは当研究所元副所長の Urs App 氏が提唱されたもので、文の切れ目を句読点で前後の行に移動する形式であり、これによって検索の便宜を図ることができます。 データはすべて ZIP 圧縮して登録されております。解凍してご利用ください。 なお、解凍後のファイルの拡張子は「.app」となっております。ファイルが開けない場合は拡張子を「.txt」に変更してください。 |
外字表記方式 |
以前作成されたデータの外字表記は「漢字ベース番号」のまま使用し、新たにUnicodeに変換したデータには諸橋轍次『大漢和辞典』(大修館書店)および『今昔文字鏡』(エーアイ・ネット開発 ・製作、紀伊國屋書店発行)の漢字番号である「文字鏡番号」で表記しました。
(例)&M012345; 先頭は「&」、終端は「;」、「&」に続く「M」は『大漢和辞典』および『今昔文字鏡』の番号であることを示します。 6桁の漢字番号は000001番から049964番までが『大漢和辞典』の漢字番号、049965番以降は「今昔文字鏡」の漢字番号です。 |
▲page top |