属性のための正規表現

檜山正幸 (HIYAMA Masayuki)

Tue Mar 29 2005:start
Tue Mar 29 2005:draft
Sat Apr 09 2005:prefinal

XML属性の出現パターンを記述するためにふさわしい正規表現（の変種）を導入する。この正規表現は、集合言語（アルファベットの部分集合の集合）の記述と解釈される。

1. はじめに

正規表現をご存じの方は多いでしょう。文字列パターンを正規表現により表すことは、テキスト処理の基本的テクニックですね。XMLでも、要素内容に出現する子要素およびテキストのパターンを、正規表現で表します。この事情は、古典的なDTDでも最近のスキーマ言語でもだいたい同様です。

ひとくちに正規表現とはいっても、随分といろいろなバリアント（方言、変種）があります。例えば、連接（concatenation）は特に演算子（メタ文字）を用意せず、単に並べる方式（ピッタリくっつけると問題が生じるなら空白をはさんで並べる）もあれば、明示的な演算子（例えば「,」）を使うこともあります。

使える演算子のレパートリも色々です。多くの例では、「|」「*」「?」「+」を使います。しかし、A+ は AA* と書けばいいので「+」は落とすことができます。一方、定数EMPTYを導入するなら、A? は (A | EMPTY)、A* は (EMPTY | A+) と書けるので、今度は「?」「*」を落とすことができます。AAA を A3 と書けたり^(*注1)、さらに、(AA | AAA | AAAA) を A{2-4} と書けたりすると便利です^(*注2)から、そういう拡張を取り入れた正規表現もあります。

注1

A3 を、文字'A'と文字'3'の連接と解釈されてしまうとまずいので、何らかの対処が必要かもしれません。対処法は、文字そのもの（リテラル）は引用符で囲むことにして 'A'3 と書く、あるいは中括弧を特殊文字として、A{3} と書くなどです。

注2

(AA | AAA | AAAA) のような選択肢は、そのまま先頭から処理しようとすると、先読みが必要になるのであまり好ましくありません。ですから、A{2-4} のような記法は、書く側に便利なだけでなく、処理側にも有利になります（A の個数を勘定しながら見ていくコードに落とせます）。

さて、この記事では、かなり変わった正規表現の一種を紹介します。この正規表現は、演算子のレパートリが違う（が、表現力は同じ）といった程度の違いではなくて、通常の正規表現とは本質的な違いがあります。まずは、XML属性の出現パターンの表現として、この正規表現を導入して、後でその概念を整理しましょう

2. 事例：sleepコマンド

最初の事例を出しましょう（作為的、人為的です:-)）。XML構文のスクリプト言語があるとして、そのコマンドにsleepがあります。<sleep second="3"/> は3秒間のスリープです。ミリ秒単位で指定したいなら、<sleep millisec="500" /> のようにします。あ、そうそう、属性secondも属性millisecもint型^(*注3)です。

注3

プログラミング言語のint型に対応するsimple typeということです。 nonNegativeならもっといいですね。

このsleepコマンドの正しい使用法は次のとおりです。

属性second、属性millisecの少なくとも1つは指定されてないとダメ。
secondだけが指定されていれば、指定された秒数だけスリープ。
millisecだけが指定されていれば、指定されたミリ秒だけスリープ。
secondとmillisecの両方が指定された場合は、それらを足した時間だけスリープ。例えば、<sleep second="3" millisc="500" /> なら、3.5秒間だけスリープ。

3. 正しいsleep呼び出しをパターンで書く

次のような簡便なパターン記法で、属性secondとmillisecが両方出現し、かつ、値がint（に対する文字列）であることを示しましょう。

<sleep second=int millisec=int />

second属性だけのときは、次のとおり。

<sleep second=int />

同様に、millisec属性だけなら次。

<sleep millisec=int />

以上3通りのどれも正しいので、その事情を書き表すなら、次のようになるでしょう。

   <sleep second=int millisec=int />
 | <sleep second=int />
 | <sleep millisec=int />

属性の部分だけをパターンで表現すれば、まー、こんな書き方でいいでしょうか。

   second=int millisec=int
 | second=int
 | millisec=int

4. 普通の正規表現で書いてみる

いま、「second=int」全体をまとめてSecondで表し、同様に「millisec=int」を1つの名前Millisecで表現します。{Second, Millisec}から作られる正規表現で、属性の出現パターンを表すことができます。上の例なら、次のようでしょう。

   (Second Millisec) | Second | Millisec

ん、ちょっと待ってください。属性では出現順序は問題にならないので、 (Second Millisec)ばかりではなく、(Millisec Second)でもOKです。これを考慮すると次のようになります。

   (Second Millisec) | (Millisec Second) | Second | Millisec

もうこれでパーフェクトです。何も言うことはありません。この正規表現は、属性の出現パターンを見事に規定しています。

次にいきましょう。要素exampleの属性foo、bar、baz、 zotがあり、それぞれの型は、「foo=int」、「bar=string」、「baz=date」、「zot=long」としましょう（実は何だっていいんだけどさ）。前の例と同様に、型の制限も含めた各属性の出現を、Foo、Bar、Baz、Zotで表すとしましょう。

ここで、とても簡単な問題を出します -- Foo、Bar、Baz、Zotの4つとも必須、つまり必ず出現が要求されているとして、それを正規表現で表してください。………………

………………僕（檜山）は結果を書き下すことはしませんが、演算子「|」をイッパイ含んだ、長い正規表現になります。

5. 属性向けの正規表現

そもそも、属性は出現順序の概念がないのです。それなのに、順序が本質的である列正規表現を使うのはバカげた話です。“出現順序の概念”や“順序を考慮した連接演算”を考える必要はありません。

そこで順序を考慮しない正規表現を考えましょう。つまり列ではなくて、単なる集合（有限集合）が対象です。でも、列の場合と同様に、アルファベット（基本構文素）から出発します。アルファベットとしては、先の例の{Foo, Bar, Baz, Zot}をとります。このアルファベットの部分集合はけっこうたくさんありますが、全部列挙できます。そのうちのいくつかを挙げれば、{}, {Foo}, {Foo, Zot}, {Foo, Bar, Baz, Zot}とかです。

アルファベットの部分集合は、ちょうど属性の出現に対応します。上の4つの部分集合は、次の4つの出現パターンに対応しますね。

<example />
<example foo=int />
<example foo=int zot=long />
<example foo=int bar=string baz=date zot=long />

さて、列ではなくて集合の正規表現は次のように定義されます。

アルファベットのメンバーは正規表現であり、そのメンバーの出現を表す。
定数EMPTYは空集合（何も出現しない）を表す^(*注4)。
A、Bが正規表現のとき、(A | B)は正規表現であり、Aによるパターン、またはBによるパターンを表す。
A、Bが正規表現のとき、(A & B)は正規表現であり、Aによるパターンと Bによるパターンが同時に出現するパターンを表す。

注4

正確には、空集合だけからなる集合{{}}を表しています。

4番目の「&」が、連接に代わる新しい演算子です。ちょっと分かりにくいのでいくつか例を出します。

Foo & Zot ：<example foo=int zot=long />
Foo & (Zot | EMPTY) ： <example foo=int zot=long /> または <example foo=int />
(Foo & Bar ) & Zot ： <example foo=int bar=string zot=long />

(A | EMPTY)を A? と書くことにするとより使いやすいでしょう。例えば、Foo & (Zot | EMPTY) は Foo & Zot? と書けます。「?」は普通通り、省略可能である（出現しなくていい）ことを表します。

6. 属性パターンから集合正規表現へ

この節で事情をハッキリさせましょう。

アルファベットとは、構文構成素と思える記号／モノの集合です。アルファベットΣ上の集合とは、Σの部分集合のことだとします。集合の集合は（列の集合が列言語であると同様に）集合言語と呼んでいいでしょう。「すべての部分集合を考える」という操作（べき集合）が2回出てくるのでちょっとややこしいですけど。

列正規表現が列言語を表すのと同様に、前節で導入した集合正規表現は集合言語を表します。Σ上の集合正規表現の解釈を示します。

アルファベットのメンバーである正規表現「a」は、単元集合{a}だけからなる言語{{a}}を表す。
定数EMPTYは、空集合だけからなる言語{{}}を表す。
(A | B)は、(Aの意味)∪(Bの意味) を表す。
(A & B)は、{x∪y | x∈(Aの意味)、y∈(Bの意味)}を表す。

最後の2つの違いが分かりにくいかもしれないので、具体例を出しましょう。正規表現Eの意味（それが表す集合言語）をM(E)と書くことにします。演算子「&」に対応する意味的な集合演算も、便宜上同じ記号&で示します。

・ a | (b | c?)

M(a | (b | c?))

= M(a)∪M(b | c?)

= M(a)∪(M(b)∪M(c?))

= {{a}}∪({{b}}∪{{c}, {}})

= {{a}, {b}, {c}, {}}

・ a & (b | c?)

M(a & (b | c?))

= M(a) & M(b | c?)

= M(a) & (M(b)∪M(c?))

= {{a}} & {{b}, {c}, {}}

= {{a}∪{b}, {a}∪{c}, {a}∪{}}

= {{a, b}, {a, c}, {a}}

つまり、正規表現 (a | (b | c?)) が表す出現パターンは次のいずれか。

それに対して、(a & (b | c?))が表す出現パターンは次のいずれか（出現順序は無関係）。

a, b
a, c
a

7. 集合正規表現の一般的な解釈

最初の事例に戻りましょう。

sleepコマンドに指定できる正しい属性パターンは、((Second & Millisec) | Second | Millisec)という集合正規表現で書けます。これはまた、(Second & Millisec?) | (Millisec & Second?)とも書けますね。ところで、記号Second, Millisecはホントの原子記号ではありません。「second=int」をSecondで、「millisec=int」をMillisecで代用していました。つまり、Secondには「second=int」の意味が閉じこめられていたのです（Millisecも同様）

ですから、M(Second) = {{Second}} という解釈は不適当です。記号Secondの意味するものは、「second=int」が意味するものです。そして「second=int」が意味するものとは、second="1"とかsecond="3"とかの具体的な属性指定の集合でした。よって、次のように考えるのが適当でしょう。

M(Second) = {{second="1"}, {second="3"}, ...}

この意味定義式の右辺は、属性インスタンスの集合の集合です。より一般に、なんでもいいから集合の集合Pow(Pow(X))があれば^(*注5)、演算∪と演算&（本物の演算です）は定義できるので、次のような“集合正規表現の一般的解釈”が可能になります。

注5

Pow(X)はXのベキ集合。

アルファベットのメンバーである正規表現「a」は、適当な集合の集合 B(a)∈Pow(Pow(X))に割り当てる。
定数EMPTYは、空集合だけからなる集合{{}}を表す。 {{}}は、Pow(Pow(X))のメンバーである。
(A | B)は、(Aの意味)∪(Bの意味) を表す。
(A & B)は、{x∪y | x∈(Aの意味)、y∈(Bの意味)}を表す。

NOTE: いろいろなデータ構造と正規表現

コンピュータで扱う典型的なコレクション・データは、列（リスト）、バッグ（マルチセット）、そして集合です。列の正規表現は普通の正規表現、この記事で扱ったのが集合の正規表現です。興味がある方は、メンバー重複を許す集合であるバッグの正規表現を定義してみてください。

NOTE: Pow(Pow(X))の公理化

列正規表現が、列言語の代数だけではなくて、一般のKleene代数に対して解釈できるように、集合正規表現は、Pow(Pow(X))上の演算∪、&をうまく公理化した代数系に対して解釈できるでしょう。それがどんな代数系なのか、僕は知りませんけど。