ホーム > 出版物 > 電子達摩 > 電子達摩 4号 > ページの隅の折り返しとSGML


出版物  


電子達摩

 ページの隅の折り返しとSGML
ウルス・アップ

 私は『雲門廣録』の原稿を徹底的に編集し、校正し、訂正して、講談社アメリカにフロッピーで送付したが、講談社はその植字工から、私のフロッピーを使うより、原稿全体を始めからタイプしなおすほうが安上がりだ、と言われた。完全に訂正ずみの原稿をタイプしなおし、それによってどんな誤植が新しく生じるか分からず、もう一度校正の過程をやり直さなければならなくなるという不可避的な危険を、なぜ、敢えて犯そうとするのか。

 その答えは「印づけ」にある。問題の植字会社は、いくぶん骨董的ではあるが実用的なテキスト印づけのシステムを使っている。たとえば、「雲門廣録」というタイトルを、ページのセンターに15ポイントの大きさのイタリック体で表示したければ、そのシステムでは、雲門廣録の前に{CEN} {IT} {PT 15} という目印をつける。私のワープロも、テキストに印づけを行なうが、しかしそのやり方は違う。植字会社は、私のシステムの印づけを彼らのシステムに翻訳することができなかったために、原稿全体をタイプしなおることに決めたのであった。

 こうした種類の、印づけコードの非共通性が主な動機となって、文書表示基準が開発され、「標準化のための国際機関」(ISO)によって発表された。この基準は、SGML(標準的汎用印づけ言語)と呼ばれる。これは、特定のいかなる単語処理(ワープロ)やテキスト処理環境にも依存しないで、テキストに印づけを行なうことができるよう設計されている。もし、私が自分のファイルをSGMLのフォーマットで保存し、植字工がこのフォーマットを読み取ることができたなら、何週間もの手間ははぶけていたろう。

 しかし、テキストに印づけをすることは、単にレイアウトや外見の問題にとどまらない。むしろ、印づけは、テキストに内在する多くの情報を、外在化(明瞭化)させるための、あらゆる活動にかかわってくる。こうして、たとえば、目次や索引を作成するために、単語や句を印づけることができる。

 あるいは、他のテキストや版本のなかに、場所を示すタグ(目印)をつけ、読者が簡単かつ正確にこれらのテキストを参照できるようにすることができる――このようにして、たとえば、英語に翻訳したものを、漢文原典に結合したり、あるいは特定の公案を様々な公案集に結合したりすることができる。言うまでもないことだが、こうした目印は、同一テキストの種々の異本間(たとえば高麗大蔵と中華大蔵)の比較を、自動的に行なうことを可能にする。

 あるいは、経度・緯度タグを町の名に付ければ、電子地図を即座に参照することも可能になってくる。さらにまた、法系タグによって、法系図のなかの正確な位置に禅僧の名を結合することができるし、引用タグは原典の引用箇所に使われる……こうした例は、いくらでも挙げてゆくことができる。それぞれの関心によって、人はいくらでも有用なタグを工夫することができるだろう――そうして、ついには、作った本人さえ混乱してしまうような、タグの寄せ集めができてしまうことになる。

 我々はみな、印づけというものがいかに非組織的であり、一貫性を欠いたものであるか、よく知っている。目印のためにページの隅を折り、余白に走り書きした自分の本を、ちょっと御覧いただきたい。ほとんどの場合、あなた以外、誰にもその手の印づけを利用できず、あなたの死とともに、それは失われてしまうだろう。他の誰にも、その意味するところが分からないからである。この種の印づけは、正確さを欠いている。

 それは、通常、「おお!」「ああ!」「そのとおり」「くだらん」「これは覚えておかなければ!」といった言葉からなる、原始的な言語の一種に似ている。ページの隅の折り返しは、「このページには、何か面白いものがある」とか、「ここで私は読むのを中断した」とか、「このページは、近刊予定の私の書評にとって、すばらしい」「このページで参照されている論文を探さなければならない」などといったことを意味しているであろう。隅の折り返しが、ほかにどういう意味を持っているか、あなた自身にはお分かりだろう――そしてあなただけにしか、分かりようがないのである。

 まさしく、ここで、SGMLの印づけ基準が、ドアを蹴破って入ってくることになる。それは標準化され(印づけ情報の交換可能性と、一貫性が確保されている)、汎用化された(あらゆる種類の文書に適用可能である)、印づけ言語であり、様々な意味あいを持つ「ページの隅の折り返し」から、多種類の句読点まで、文書内の多くの事柄を明確に定義する、一種のメタ言語である。

 術語の意味が、あなたの本の余白の記号のように曖昧にならないよう、SGML様式の文書は、印づけされたテキストの基本的要素を記述したリストで始まる。そこには、どういう文字セットを使っているか(たとえばアスキーかユニコードか)、どのように地の文と目印用の記号を区別するか、などが記述される。このリストは、SGML宣言と呼ばれる。本にたとえて言うなら、ここであなたは、ページの黒い部分は地の文で白い部分は背景であり、テキストは英文字と漢字からなり、そして印づけの記号にはページの隅の折り返しと黒鉛筆による書き込みを使う、というふうに宣言することになる。

 また、あなたが扱う文書のタイプいかんによって、ページの隅の折り返しという一つの目印は、様々に異なる意味を持つことがありうる。秘書に渡される下書きの文書では、「注意!」の意味かもしれないし、ソフトウェアのマニュアルでは「索引にないものを参照するために、ここを見よ」、新聞では「このページには興味深い広告が出ている」、そして映画のシナリオでは「このシーンはもう一度取り直さなければならない」という意味かもしれない。

 SGML様式の文書では、文書タイプ定義(DTD)によってこうした異なる文書のタイプの性格を定義し、これを印づけするとき適用される規則を記述する。これらの規則は、例外なく、一つの目的のために使われる。すなわち、内在的情報を外在化(明瞭化)することを助けること、である。たとえば、英文文書のなかに略語を見つけたいとすると、ピリオドで終る単語を探さなければならない。しかしながら、ピリオド(点)というのは、非常に曖昧な記号である。それは、略語の終りにも使われるし、文章の終りにも使われるし、これら二つの組み合わせにも使われる。その上、それは英数字の列における空白の代用としても使われるし(T8.274.232a10のように)、小数点としても使われる。選択ないし定義した文書タイプに従って、一つないしそれ以上のこうした定義を明確にしなければならなくなる。こうして、文書タイプ定義では、
  • <stop.abbr> …略語の終り
  • <stop.sent> …文の終り
  • <stop.abse> …これら両者の組み合せ
  • <stop.space> …英数字の空白文字
  • <stop.dec> …小数点
として定義することになる。
 文書タイプ定義(DTD)は、普通、専門家によって設計される。当研究所においては、いくつかの禅文献用のDTDモデルが、我が研究チームの手によって、現在、開発されつつある。

 SGML様式文書の三番目の要素は、印づけられたテキストそれ自体である。
  1. SGML宣言
  2. 文書タイプ定義
  3. 印づけられたテキスト
というこれら三つの要素は、一緒になってSGML様式の電子文書を構成する。その構造と内容は、非常に普遍的に定義されているので、文書はだいたいにおいてハードにもソフトにも依存しない。構造をレイアウトと曖昧なフォーマットから明確に切り離したことによって、簡単に保存し、知性的な検索を行ない、多様な形式で出力し、広範な相互交換を行なうことが可能になる。

 このような文書の電子「印づけ」は、電子文書の付加価値を増大させる。ちょうどあなたの本のページの隅折りや、鉛筆の目印のように、これによって電子文書の活用はより容易に、より集約化されたものとなる――本の場合とは比較にならないくらい、はるかに実り多く、総合的なかたちで。こうして、人は、苦労して得た成果(ファイル)を、余儀なく押入れのなかにしまっている状態から解放される。それどころか、それらはテキスト自体の一部をなすものとなり、さらにそうした「付加価値テキスト」は、他者をも豊かにし、人類共通の遺産となるであろう。


▲page top   

 Last Update: 2003/06/05