型システムの相剋と棲み分け

ここで言っている「XMLと相性が良ければ、プログラミング言語とは相性が悪い」てなことは、僕としてはサンザン言い尽くした気分になっている。が、それは勝手にそんな気分に陥っているだけで、実際は、あまり明白に表明もしてないし、明確に説明もしてない（のだろう、たぶん）。

そこで、なるべく事情がクリアになるような説明をこの記事で与えたい。言いたいことは、文字列やXMLによりうまく表現できるような型と、オブジェクトの型（クラスやインターフェースだと思ってください）は、全然違うってこと。似てるところもあるのだけど、それよりは食い違いのほうが大きい。食い違いをよーく認識して、それをどうやって乗り越えるかを考えなくてはならない。

僕が、「XMLと相性が良ければ、プログラミング言語とは相性が悪い」とサンザン言い尽くした気分になっているのは、次のような理由からだ。1つは、『JavaWorld』誌連載のなかで言及したつもりになっている。が、これはたぶん（僕の気持ちに比べれば）明白ではないだろう。もう1つ。正しいプログラムを書くには増補版テキストのなかでも触れている^(*注1)。と、僕は認識している。が、これも明確な説明にはなっていないみたい。

で、最初から説明する。しかし、ネタは上記の素材から拝借している。いちいち引用元を明示はしない（自分で引用しているのだから、別にいいでしょ）。また、記事「折れ線の例」、「XMLフレンドリーな型システム」ともかぶっている。なお、この記事を読む前に「XMLフレンドリーな型システム」は、ざっと眺めておいたほうがよいと思うが、そんなに熱心に読む必要はない。

2. 例題の準備

例題は、幾何学的な点である^(*注2)。点の座標成分であるスカラー型の選定で既に問題を含んでいるが、この影響は今回考えたくない。概念的な実数、整数に対して、double、longの型を使うとして、同じdouble、longがマークアップでも使えるとする。

クラスとしてのPointとLatticePointは次のように定義する（面倒だから publicは付けてない）。クラス名のお尻についてる「C」は不格好だが、後で混乱を招かないように付けている（頭にCを付けたCPointのほうが好き？）。

これに対応するマークアップの規則は次のように定義される。名前のお尻の「M」は、クラスの「C」と同様、マークアップであることを示すための印。

さらに、nonNegativeDoubleとnonNegativeLongは非負の数だとして、上半平面にある点も定義しておく。

3. 構文的サブタイプ関係

前節で定義したクラスや要素パターンの背後には、もちろん本物の“幾何学的な点”があるのだが、幾何学的な点に正面切って言及するのは避ける。幾何学的な点は、気持ちの世界（メンタル・モデル）に存在するとしよう。

記号を無闇と増やさないために、PointM、LatticePointM、UpperPointM、 UpperLatticePointMを、構文的に定義される型の名前として使うことにする^(*注3)。これらの型の領域を、構文的な定義を満たす（パターンにマッチする）要素の集合だとする。「XMLフレンドリーな型システム」を読んだかたは、話が食い違っていると思うだろう。そう、食い違っているのです！この記事では、意図されている意味／指示対象である“幾何学的な点”への言及を避けている。よって、型の領域として“幾何学的な点”の集合をとるのではなくて、その表現であるXML要素の集合を採用する。これは既に、構文的型システムに踏み込んでいることになる。構文的型システムについての説明は下のノートにある。

NOTE: 構文的型システム

PointCやPointMが平面内の任意の点を表し、 LatticePointCやLatticePointMが平面内の格子点を表すと考えるのは、何も悪いことではない。だが、“平面内の任意の点”は、紙やホワイトボードの上にあるわけではないし、コンピュータの中にも存在しない。どこにあるかよくわからないイデアルな存在を、正面から取り上げるのは止めよう、というのが構文的型システムの基本発想である。だがこれは、心のなかに思い描く“幾何学的な点”までも禁止するものではない。

幾何学的な点の代わりに、それを表現するときに使う構文的な対象、例えば、文字列"(3, -1)"やXML要素<point x="3" y="-1" />を考える。「表現は対象を指し示す」ものだが、指し示すべき対象が理念的だったり、曖昧だったり、そもそも存在しないときには、表現を対象の代理に使う。いやっ、存在しないモノの代理というのも変だから、「表現のみを使う」と言うべきだろう。

ただし、表現には余計な自由度がある。例えば、"(3,-1)"と "(3, -1)"は異なる文字列である（空白が違っている）が、点の表現としては同じとみなさなければならない。そこで、表現には必ず正規形を考える。例えば、「カンマの後に必ず1個だけのブランク文字を入れる」という正規形の規則があれば、次のように正規化される。

"(3,-1)" → "(3, -1)"
"(3,  -1)" → "(3, -1)"

正規形の表現は、事実上、値とみなすことができる。つまり、正規化写像を意味写像とみなして、構文的型を通常の意味論の枠組みで扱うことも可能なのである。正規化さえキチンと定義すれば、なにも不便はない、というのが僕のスローガンである。

型PointM、LatticePointM、UpperPointM、UpperLatticePointMの領域を、それぞれ[PointM]、[LatticePointM]、[UpperPointM]、[UpperLatticePointM]と書く。これらはすべて、要素の集合である（くどいが、幾何学的な点の集合ではない）。そして、これらの集合のあいだには次のような関係がある。

領域の包含関係を背景（根拠）として、型PointM、LatticePointM、 UpperPointM、UpperLatticePointMには、次のような型階層があるとしてよいだろう。

型PointMなどは構文的に定義される型であり、領域[PointM]などは「幾何学的な点の集合ではない」と強調したが、それにもかかわらず実際は、構文的対象（要素）と構文的集合（要素の集合=言語）が、幾何学的な点と点集合をよく表している。つまり、構文的な包含により定義される構文的サブタイプ関係（型階層）は、心のなかの幾何学的なモデル^(*注4)とよく一致する。

4. サブクラスはうまくいかない

今度はクラスについて考えよう。先に定義したPointCとLatticePointCという 2つのクラスはどんな関係にあるだろう。

クラスの内部状態空間（インスタンス変数の取り得る値の範囲）を、 [PointC]、[LatticePointC]と書くなら、事実として [LatticePointC] ⊆ [PointC]は成立している。これは、前節の[LatticePointM] ⊆ [PointM]と同様な状況である。しかし、クラスの内部状態空間は外部から観測できるものではない。[LatticePointC] ⊆ [PointC]を確認できる人は限られている（誰も確認できないかもしれない）。

プログラミング言語が正式に認めた方法で、LatticePointCがPointCのサブタイプであることを主張できないだろうか。LatticePointCをPointCからの継承により定義すれば、明示的にサブタイプであると主張できる。だが、少なくともJavaでは、LatticePointCをPointCを継承して定義することはできない。

上半平面の点を表すつもりのUpperPointCとなると、どうやってクラスを合理的に定義すべきかさえ分からなくなる。例えば、次のコードでは、「上半平面にある（y≧0）」という情報はコメントとしてしか現れない。

UpperPointCをPointCから継承して定義することはできるが、それをしたからといって、継承のありがたみはない^(*注5)。y >= 0 のチェックをはさむ必要があるから、ほとんどのメソッドを上書きする必要がある。

さらに、クラスの型階層を次のようにしたいとしたら、どうだろう。

この図は、単一継承主義者はもちろん、多重継承主義者も嫌がるであろうダイヤモンド形である。

5. サブクラスがうまくいくとき

Point, LatticePoint, UpperPointなどの概念を、型階層も含めてクラスとして定義するのはうまくいかない。このテのサブタイプ概念を表現することは、クラスが苦手とするところだ。

では、クラスが得意とするサブタイプ概念とはどんなものだろう。同じ PointCから出発しても、次の“色付き点”ならうまく継承で定義できる。

この例では、継承によるサブクラスは、基底クラスに対して、機能や特性を追加している。Javaのキーワードextendsが暗示するように、継承により能力の拡張／強化（エンリッチメント）が行われているのである。

6. 比較してみる

「LatticePointはPointのサブタイプである」も「ColoredPointはPointのサブタイプである」も、どちらも正しい主張だが、この2つの主張におけサブタイプ概念は異なっている。

「LatticePointはPointのサブタイプである」ケースでは、LatticePointのインスタンスは、自然にかつ一意的にPointのインスタンスと見なせる。つまり、 LatticePoint→Pointの方向に、自然な埋め込みが存在する。

プログラミング言語、特にオブジェクト指向言語が得意とするサブタイプ概念では、サブタイプ→スーパータイプの方向で射影が存在している。一方、オブジェクト指向言語が苦手とするサブタイプ概念では、サブタイプ→スーパータイプの方向で自然な埋め込み（包含写像）が存在しているのである。射影と包含は、逆（双対）な概念である。つまり、サブタイプ関係を支える背景が正反対になっている。

7. 再びマークアップの例

プログラミング言語では、クラス継承を使って「ColoredPointはPointのサブタイプ」だと言えた。では、上の要素パターンから、[ColoredPointM] ⊆ [PointM]が成立するかというと、全然ダメである。例えば、<point x="1" y="2" color="red" />は[ColoredPointM]に属するインスタンスだが、 [PointM]には属さない。

もし、[ColoredPointM] ⊆ [PointM]としたいなら、次のように定義しなくてはならない。

ここで、「**」は、任意の（ただし、名前がバッティングしない）属性が出現してよいことを示す一種のワイルドカードである。ワイルドカードを許せば、クラスの継承と似たようなサブタイプ関係が出現する^(*注6)。これは、「属性だけを持つ要素がレコード構造であり、オブジェクトもレコード構造である」という類似性^(*注7)に依拠している。

いずれにしても、ワイルドカードを使えば、構文的な型階層がクラス階層と似た振る舞いをすることは、良いニュースである。だがこれは、「どちらも所詮はレコードだから」という状況がたまたまあったからで、過大に喜んではいけない。

8. インクルーシブな型階層とプロジェクティブな型階層

構文的な型は、文字列全体とかXMLインスタンス全体とかの広い領域から、目的にふさわしい表現だけを切り出すことによって定義される。制限することが型定義のための基本操作である。その結果、サブタイプの領域には、スーパータイプの領域に向かう包含写像が付随することになる。つまり構文的な型システムでは、型階層は包含写像により支えられているといってよい。

一方、オブジェクティブな型は、共通機能だけを持った汎用（しかしプア）な定義からはじまり、それに機能や特性を付け加えることで新しい型が定義される。サブタイプはスーパータイプよりもリッチだから、サブタイプの領域（状態空間）からスーパータイプの領域には射影（または忘却）写像が存在する。つまりオブジェクティブな型システムでは、型階層は射影写像により支えられている。

まとめれば、構文的な型システムは、包含（inclusion）による型階層を持ち、オブジェクティブな型システムは、射影（projection）による型階層を持つ。標語的には、「構文的な型システムはインクルーシブ、オブジェクティブな型システムはプロジェクティブ」と言える。このことは、「階層がある」というレベルでは同じといえるが、階層を支える基盤は全然違うことを意味する。

9. 統合できるか

考えるべき問題は、基盤が全然違う型システムを統合できるのだろうか？だ。この節では見通しを述べるが、曖昧でイイカゲンなことを言う。

構文的な型を定義する際の生成的な部分、つまり文法規則だが、これはオブジェクトのコンストラクタと解釈するのが自然だろう。文法規則は型構成規則と解釈できるし、コンストラクタとは型構成子だから。

構文的な型の制限（条件）の部分は、現状のプログラミング言語に対応物を見つけるのは難しい。仕様、制約記述、契約のレベルで、制限の記述を行うしかないような気がする。

僕としては、構文的な型システムを直接実装に落とすことは考えてない。 “構文的な型システム”が“仕様としての型システム”と対応すれば満足なので、それならば手が届く範囲だと思っている。