言語をグラフ位相で読む

プレプリント Languages as Graph Topologies (Kawasaki, 2026) の要約とブログ向け再構成。

1. 出発点 — 文法は計算の形である

英語、日本語、ヒンディー語、フランス語、アラビア語。語順は SVO・SOV・VSO に分かれる。これは表面的な並び替えではなく、情報をどう束ねて処理するか という計算戦略の差である、というのが本稿の主張だ。

文を「単語の列」ではなく 依存グラフ G = (V, E) として見る。頂点 V は語、辺 E は head→dependent の関係。すると言語ごとに異なる位相 (topology) が立ち上がる。

2. 5 つの位相メトリック

論文では次の 5 つを定義する。

Metric	Definition	Reads as
Tree depth `D(T)`	`max_v dist(r, v) /	V
Branching factor `B(T)`	mean out-degree of internal nodes	how wide each head fans
Head Directionality Index (HDI)	fraction of edges where head precedes dependent	head-initial vs. head-final
Crossing Number (CN)	fraction of arc pairs that cross	non-projectivity
Mean Dependency Distance (MDD)	mean linear distance between head and dependent	working-memory load

さらに代数的位相幾何から Betti 数 を借りる。β₀ は連結成分数、β₁ は独立 1-cycle 数。射影的な木では β₁ = 0。非射影構造が入ると β₁ > 0 になる。これが「文法的自由度の位相不変量」になる。

3. 3 つの計算形式

5 言語をこれらの軸に乗せると、3 つの位相クラス に綺麗に分かれる。各クラスはそのまま情報処理の比喩 (関数型プログラミングの操作) になる。

Three computational topologies of language

3.1 Convergent — `fold` (日本語・ヒンディー語, SOV)

文：「猫が鼠を追いかけた」。すべての依存辺が文末動詞 追いかけた に向かって集束する。HDI ≈ 0.15 (head-final), CN ≈ 0.10 (ほぼ射影的), β₁ ≈ 0.05 (最も木に近い)。

これは関数型での fold に対応する。引数を左から右へ蓄積し、最後の動詞でリダクションが閉じる。日本語の助詞 (-が, -を, -に) は引数のラベルであり、動詞は accumulator を受け取って評価する関数だ。

-- Japanese sentence as a fold
sentence = foldl (flip ($)) verb [subject, object]
-- Arguments are pushed onto the stack; the verb at the end pops and computes.

3.2 Divergent — `apply` (英語・フランス語, SVO)

文：「The cat chased the mouse」。動詞 chased が早い段階で現れ、左に主語を、右に目的語を分岐させる。HDI ≈ 0.75 (head-initial), β₁ ≈ 0.10。

これは apply に対応する。動詞が関数として早期にコミットし、パーサは前方予測で残りの引数スロットを埋めにいく。英語の不自然な省略 (例：What did you give ___?) が許される構造的余地は、動詞の引数フレームが先に立つこの位相から来ている。

-- English sentence as an application
sentence = chased subject object
-- Verb is curried; arguments are supplied as they appear.

3.3 Broadcast — `scatter` (アラビア語, VSO)

文：طارد قطٌّ فأرًا (verb-subject-object)。動詞が文頭にあり、root から主語・目的語が同時に枝分かれする。HDI ≈ 0.60, β₁ ≈ 0.22 (5 言語中最大)。

これは MPI の scatter や broadcast に近い。動詞が一気に複数の slot 要件を投射し、豊富な形態素的一致 (動詞が主語の人称・数を屈折で抱える) によって主語チャネルが圧縮される。語順の自由度 (= 高い β₁) は、形態論で関係を担保するからこそ許される。

4. 位相空間における言語クラスタ

HDI と β₁ の 2 軸を取って 5 言語をプロットすると、3 クラスタが幾何的にも分離する。

HDI x beta-1 scatter showing the three clusters

注目すべきは 日本語とヒンディー語の分離 である。両者ともに SOV / head-final と分類されるが、日本語は射影的 (β₁ ≈ 0.05)、ヒンディー語は scrambling を許すぶん非射影的 (β₁ ≈ 0.18)。離散的な「SOV か否か」では捉えられないこの差を、位相不変量は連続量として記述する。

5. なぜ位相か — 形と計算のトレードオフ

論文の中心定理 (Topology–Computation Correspondence) は、言語 L の計算戦略 C(L) が位相特徴ベクトル (HDI, CN, β₁) の関数であると主張する。

C(L) = f( HDI(T), CN(T), β₁(T) )

そして観察される基本的トレードオフ：

文法関係を 位置で符号化する (β₁ → 0) か、形態素で符号化する (β₁ ↑) か。

これは情報理論的に等価である。日本語と英語は前者を、アラビア語とヒンディー語は後者を選ぶ。どちらも root に向けた依存関係を保つが、その「保ち方」が位相に出る。

6. NLP への含意 — アーキテクチャは位相を見るべきか

現在の Transformer は、すべての言語を同じアーキテクチャで処理する。位置エンコーディングは線形であり、fold 言語と apply 言語の構造的差異は attention の重みの中にしか反映されない。

しかし論文の主張に従えば、これは 位相のミスマッチ である。日本語のように引数を末尾の動詞に集束させる言語に対しては、fold-friendly な inductive bias (例：右から左への evaluation order、final-head に向けた causal mask) が原理的には合理的である。

この観点は、依存解析の精度を上げる以上の含意を持つ。言語ごとに inductive bias を変える ことが、Transformer の universal architecture 仮説に対する一つの反論材料になる。

7. まとめ

文は依存グラフ。グラフには位相がある。
HDI と β₁ を取れば、5 言語は convergent / divergent / broadcast の 3 クラスタに分かれる。
各クラスタは関数型の fold / apply / scatter に対応する計算形式である。
位相は「文法を位置で符号化するか、形態素で符号化するか」というトレードオフの幾何的記述になっている。

言語は孤立した文法体系ではなく、情報処理の異なる計算機 である。位相幾何はそれを見るためのレンズだ。

詳細な定義、Betti 数の計算手法、対象 5 言語のコーパス分析は com-junkawasaki/kotoba-topology のプレプリント PDF を参照。

References

Kawasaki, J. (2026). Languages as Graph Topologies: A Computational Framework for Cross-Linguistic Syntactic Structure Analysis. Preprint.
Tesnière, L. (1959). Éléments de syntaxe structurale.
Mel’čuk, I. (1988). Dependency Syntax.
Liu, H. (2008). “Dependency Distance as a Metric of Language Comprehension Difficulty.”
Futrell, R., Mahowald, K., Gibson, E. (2015). “Large-scale evidence of dependency length minimization in 37 languages.”
Hatcher, A. (2002). Algebraic Topology. Cambridge UP.
Greenberg, J. H. (1963). “Some universals of grammar with particular reference to the order of meaningful elements.”

言語をグラフ位相で読む — 5つの言語、3つの計算形式