順序言語

列言語のアルファベットに順序が入っている場合に、言語にも順序構造を与えることができる。ただし、言語の定義を少し変えたほうが都合がよい。新しい“言語の定義”のもとでも、通常の定義の場合とほとんど同じ取り扱いができる。

1. はじめに

形式言語理論における“言語”とは、なんらかの構文的対象（語、項、文、ツリー、グラフなど）の集合である^(*注1)。それが単なる集合ではなくて、順序構造が入っているとき、順序言語と呼ぶ^(*注2)。つまり、順序言語に属する2つの構文的対象は（部分的に）比較可能となる。

注1

では、構文的対象とは何か？と問われると厳密な定義があるわけではない。構文的対象と呼ばれるモノが前もってこの世に存在するわけではない。なにかを構文的な対象とみなすのは我々の主観である。つまり、ある対象を「これは構文的対象だ」と思い、そのように取り扱えば、それは構文的対象なのである。

注2

「順序付き言語」のほうがいいかとも思った。が、"ordered xxx"の訳語は通常「順序××」だから、その習慣に従った。

記事「折れ線の例」で述べたような問題にアプローチするためには、どうしても順序言語の概念が必要そうだ。そこで、この記事で、順序言語の一般的かつ基礎的な事項について述べる。

多くの場合、アルファベット（構文的対象の基本構成素）にもともと順序が入っていて、それにより言語（と呼ばれる集合）の上の順序構造が定義される。よってここでは、アルファベットの順序構造から導かれた順序だけを考える。

2. 順序付きアルファベットと、その上の列集合

Σはアルファベットとする^(*注3)。Σに順序構造が入っているとき‘順序付きアルファベット’と呼ぶ^(*注4)。順序付きアルファベットは、台集合（underlying set）Σとその上の順序（partial order）≦を組にして(Σ、≦)と書くべきだが、単にΣだけで順序も込めた集合を意味するとする。つまり、記号の乱用だがΣ=(Σ, ≦)。

注3

文字「Σ」（シグマ）をアルファベットを表すために使うのは、形式言語理論の習慣である。このての習慣に、たいした意味があるわけではない。にもかわわらず、従うほうが無難といえる。

注4

アンリャー、こっちでは「順序付き」になっている。無意識だった、気が付かなかった。直したほうがいいかな？

FIG: 順序付きアルファベットの例

/* ordered-alphabet */

Σのメンバーから構成される列の全体をSeq(Σ)とする。Seq(Σ)のメンバー、つまり列をα、βなどで表す。1以上の整数iに対して、α_iは、列αのi番目に出現するΣのメンバーだとする^(*注5)。

注5

インデックス番号を0からはじめるか、1からはじめるかは、いつでも悩んでしまうが、この記事では1からの番号付けとする。

Σに順序が定義されていれば、Seq(Σ)にも順序が入る。その定義は以下のとおり。

Σを上の図のような順序が入った集合{a, b, c, T, ⊥}だとして、いくつかの例を挙げる。

列の順序の定義から、length(α)≠length(β) なら、 αとβは比較不能である。よって、すべての列ξに対してξ≦αとなるようなα（つまり、最大元）は存在しない。同様に最小元も存在しない。ただし、長さnの列のなかでの最大元／最小元は存在するかもしれない^(*注6)。

注6

すべての列に対する最大元／最小元が存在するように、定義を手直しすることは容易であるが、今は必要がないから考えないことにする。

Σが順序集合のとき、Seq(Σ)も上の定義で順序集合になる。つまり、Seq(Σ) 上に定義された≦は次を満たす。（定義からただちに従う。）

列の連接（concatenation）に関して、次が成立する^(*注7)。これらの性質も、≦の定義に沿えば容易に確認できる（練習問題）。

注7

つまり、Seq(Σ)は、連接に関して順序モノイドとなる。

3. 下方閉な部分集合

ここで、後で使う都合から、順序集合の一般論を少し議論しておく。

順序集合Xの部分集合Aが次の条件を満たすとき、‘下方閉’（lower closed）という。

全体集合Xと空集合Oは明らかに下方閉である。A、Bが下方閉だとすると、次が成立する。

より一般に、{A_i | i∈I} が下方閉な集合A_i達の族だとして、次が言える：

Pow(X)はXの部分集合全体の集合（ベキ集合）、Pow_LC(X)を、Xの下方閉部分集合の全体とする。Pow_LC(X) ⊆ Pow(X) である。今述べたPow_LC(X)の性質から、Pow(X)の束演算をPow_LC(X)に制限できる。この制限した演算により、 Pow_LC(X)は集合束になる。

4. 言語の定義

第2節で、アルファベットΣが順序集合なら、Seq(Σ)も順序集合にできることがわかった。このとき、Σのメンバーを長さ1の列として埋め込む写像 Σ→Seq(Σ)は、順序を保つ写像になっている。また、Seq(Σ)上で連接演算を考えると、順序モノイドになるのだった。

さて、通常の形式言語の定義では、Seq(Σ)の任意の部分集合を言語と呼ぶのだが、この定義をそのまま採用するのは良くない。単なるSeq(Σ)の部分集合を言語だとすると、話がなめらかに進まない。条件を付けることにする。

順序付きアルファベット上の言語は、次のように定義する。

言語は、（順序集合と考えた）Seq(Σ)の部分集合だから、Seq(Σ)から誘導された順序を持つ。つまり、上で定義した言語は順序言語である。

なお、Σに順序がないとき、“離散順序がある”とみなしてΣを（特別な）順序集合と考えることができる。（離散順序とは、「x≦y ⇔ x=y」として定義される順序である。）そのとき、上の“言語の定義”は通常の“言語の定義” に一致する。なぜなら、Seq(Σ)も離散順序集合になるので、任意の部分集合が下方閉となるからである。

順序付きアルファベットΣから生成される言語の全体をLang(Σ)とする。 Lang(Σ) = Pow_LC(Seq(Σ)) である。第3節の結果から、 Lang(Σ)は集合束になる。

AとBが言語のとき、ABはAとBの連接言語だとする。‘言語の連接’の定義は次のとおり。

“言語”の定義より、AもBも下方閉であるが、ABが下方閉であることを示さないと、上の定義はwell-definedではない。ABが下方閉であることは次のように示せる： ABのメンバーは、α∈Aとβ∈Bを使ってαβの形に書ける。γ≦ αβだとして、このγがABのメンバーになることを示せばよい。≦の定義より、 γ≦αβであるならγとαβは長さが等しい。γを“αと同じ長さの前半”と “βと同じ長さの後半”に分けて、γ=γ₁γ₂と書く。すると、γ₁≦α、 γ₂≦βとなるが、AとBが下方閉だったから、γ₁∈A、γ₂∈B。つまり、 γは、γ₁∈A、γ₂∈Bであるγ₁、γ₂によりγ=γ₁γ₂と書けるのだから、ABのメンバーである。

ここで、「α₁とβ₁が同じ長さ、α₂とβ₂が同じ長さのとき、 α₁α₂≦β₁β₂ならば、α₁≦α₂、かつβ₁≦β₂」という性質を使っている。これも≦の定義からすぐ出る性質である。

これで、Lang(Σ)は、集合束であると同時にモノイドであることが分かった。さらに、∪に関しては次の分配法則が成立する。

1番目の等式で、まず A（∪_iB_i）⊆ ∪_i(AB_i) を示そう。 A（∪_iB_i）のメンバーは、α∈Aとβ∈∪_iB_iによりαβと書ける。ところでβ∈∪_iB_iとは、適当なk∈Iがあってβ∈B_kのことであるから、 αβ∈AB_k、よって、αβ∈∪_i(AB_i)。

次に、逆向きの ∪_i(AB_i) ⊆ A（∪_iB_i）を示そう。∪_i(AB_i)のメンバーは、適当なk∈Iに対してAB_kのメンバーである。つまり、α∈Aとβ ∈B_kによりαβと書ける。β∈B_kなら当然にβ∈∪_iB_iだから、 αβ∈A(∪_iB_i)。

∩に関しては、A(B∩C) = AB∩AC さえ成立しない。例えば、A={ε, a}、B= {ε, a} C={aa}とすると：

5. 正規表現

この節では、正規表現とその解釈を与える。正規表現の構文は通常とまったく同じであるが、解釈は少し変わる。

最初に、正規表現を形式的な項として定義する。形式的な定義に関しては、記事「『形式的』とは何だろう」を参照。使う演算記号（関数記号）は、「;」、「|」、「*」であり、それぞれ、連接、合併、Kleeneスターを表す心積もりである。

εは空列として、ε↓ = {β∈Seq(Σ) | β≦ε}は{ε}である。なぜなら、 β≦εであるためには、βは長さが0でなくてはならないが、長さ0の列はε以外にないから。

正規表現rに対して、その意味（値）をM(r)と書くことにする。どんな正規表現rに対してもM(r)は言語である。

最後のM(r)^*だけは説明を補足しておく。任意の言語A（Seq(Σ)の下方閉な部分集合）に対して、A^* = {ε}∪A∪AA∪AAA∪ ... である。これは、A₀ = {ε}、A₁ = A、A₂ = AA、… として、A^* = ∪_iA_i （i=0, 1, 2, ...）とも書ける。各A_iは下方閉だから、それらの合併も下方閉である。よって、 A^* も下方閉である。

定義に従ってM((1 | a);b | b;c*)を計算してみる。ただし、[a]↓=A、[b]↓=B、 [c]↓=Cとする。

6. おわりに

順序付きアルファベットから生成される順序言語（の族）も、通常の言語とそれほど異ならないことがわかった。実際、順序を考慮しても、負担が極端に増えることはない。一方、順序言語を導入することにより明らかになる現象はけっこう多い。その意味で、順序言語は“お得な”概念である。

応用例は別な記事で述べるが、記事「折れ線の例」で提示した問題を解くことは、1つの応用例になる。