English

言語をグラフ位相で読む — 5つの言語、3つの計算形式

Cover Image for 言語をグラフ位相で読む — 5つの言語、3つの計算形式

言語をグラフ位相で読む

プレプリント Languages as Graph Topologies (Kawasaki, 2026) の要約とブログ向け再構成。


1. 出発点 — 文法は計算の形である

英語、日本語、ヒンディー語、フランス語、アラビア語。語順は SVO・SOV・VSO に分かれる。これは表面的な並び替えではなく、情報をどう束ねて処理するか という計算戦略の差である、というのが本稿の主張だ。

文を「単語の列」ではなく 依存グラフ G = (V, E) として見る。頂点 V は語、辺 E は head→dependent の関係。すると言語ごとに異なる位相 (topology) が立ち上がる。


2. 5 つの位相メトリック

論文では次の 5 つを定義する。

MetricDefinitionReads as
Tree depth D(T)`max_v dist(r, v) /V
Branching factor B(T)mean out-degree of internal nodeshow wide each head fans
Head Directionality Index (HDI)fraction of edges where head precedes dependenthead-initial vs. head-final
Crossing Number (CN)fraction of arc pairs that crossnon-projectivity
Mean Dependency Distance (MDD)mean linear distance between head and dependentworking-memory load

さらに代数的位相幾何から Betti 数 を借りる。β₀ は連結成分数、β₁ は独立 1-cycle 数。射影的な木では β₁ = 0。非射影構造が入ると β₁ > 0 になる。これが「文法的自由度の位相不変量」になる。


3. 3 つの計算形式

5 言語をこれらの軸に乗せると、3 つの位相クラス に綺麗に分かれる。各クラスはそのまま情報処理の比喩 (関数型プログラミングの操作) になる。

Three computational topologies of language

3.1 Convergent — fold (日本語・ヒンディー語, SOV)

文:「猫が 鼠を 追いかけた」。すべての依存辺が文末動詞 追いかけた に向かって集束する。HDI ≈ 0.15 (head-final), CN ≈ 0.10 (ほぼ射影的), β₁ ≈ 0.05 (最も木に近い)。

これは関数型での fold に対応する。引数を左から右へ蓄積し、最後の動詞でリダクションが閉じる。日本語の助詞 (-が, -を, -に) は引数のラベルであり、動詞は accumulator を受け取って評価する関数だ。

-- Japanese sentence as a fold
sentence = foldl (flip ($)) verb [subject, object]
-- Arguments are pushed onto the stack; the verb at the end pops and computes.

3.2 Divergent — apply (英語・フランス語, SVO)

文:「The cat chased the mouse」。動詞 chased が早い段階で現れ、左に主語を、右に目的語を分岐させる。HDI ≈ 0.75 (head-initial), β₁ ≈ 0.10。

これは apply に対応する。動詞が関数として早期にコミットし、パーサは前方予測で残りの引数スロットを埋めにいく。英語の不自然な省略 (例:What did you give ___?) が許される構造的余地は、動詞の引数フレームが先に立つこの位相から来ている。

-- English sentence as an application
sentence = chased subject object
-- Verb is curried; arguments are supplied as they appear.

3.3 Broadcast — scatter (アラビア語, VSO)

文:طارد قطٌّ فأرًا (verb-subject-object)。動詞が文頭にあり、root から主語・目的語が同時に枝分かれする。HDI ≈ 0.60, β₁ ≈ 0.22 (5 言語中最大)。

これは MPI の scatter や broadcast に近い。動詞が一気に複数の slot 要件を投射し、豊富な形態素的一致 (動詞が主語の人称・数を屈折で抱える) によって主語チャネルが圧縮される。語順の自由度 (= 高い β₁) は、形態論で関係を担保するからこそ許される。


4. 位相空間における言語クラスタ

HDI と β₁ の 2 軸を取って 5 言語をプロットすると、3 クラスタが幾何的にも分離する。

HDI x beta-1 scatter showing the three clusters

注目すべきは 日本語とヒンディー語の分離 である。両者ともに SOV / head-final と分類されるが、日本語は射影的 (β₁ ≈ 0.05)、ヒンディー語は scrambling を許すぶん非射影的 (β₁ ≈ 0.18)。離散的な「SOV か否か」では捉えられないこの差を、位相不変量は連続量として記述する。


5. なぜ位相か — 形と計算のトレードオフ

論文の中心定理 (Topology–Computation Correspondence) は、言語 L の計算戦略 C(L) が位相特徴ベクトル (HDI, CN, β₁) の関数であると主張する。

C(L) = f( HDI(T), CN(T), β₁(T) )

そして観察される基本的トレードオフ:

文法関係を 位置で符号化する (β₁ → 0) か、形態素で符号化する (β₁ ↑) か。

これは情報理論的に等価である。日本語と英語は前者を、アラビア語とヒンディー語は後者を選ぶ。どちらも root に向けた依存関係を保つが、その「保ち方」が位相に出る。


6. NLP への含意 — アーキテクチャは位相を見るべきか

現在の Transformer は、すべての言語を同じアーキテクチャで処理する。位置エンコーディングは線形であり、fold 言語と apply 言語の構造的差異は attention の重みの中にしか反映されない。

しかし論文の主張に従えば、これは 位相のミスマッチ である。日本語のように引数を末尾の動詞に集束させる言語に対しては、fold-friendly な inductive bias (例:右から左への evaluation order、final-head に向けた causal mask) が原理的には合理的である。

この観点は、依存解析の精度を上げる以上の含意を持つ。言語ごとに inductive bias を変える ことが、Transformer の universal architecture 仮説に対する一つの反論材料になる。


7. まとめ

  • 文は依存グラフ。グラフには位相がある。
  • HDI と β₁ を取れば、5 言語は convergent / divergent / broadcast の 3 クラスタに分かれる。
  • 各クラスタは関数型の fold / apply / scatter に対応する計算形式である。
  • 位相は「文法を位置で符号化するか、形態素で符号化するか」というトレードオフの幾何的記述になっている。

言語は孤立した文法体系ではなく、情報処理の異なる計算機 である。位相幾何はそれを見るためのレンズだ。


詳細な定義、Betti 数の計算手法、対象 5 言語のコーパス分析は com-junkawasaki/kotoba-topology のプレプリント PDF を参照。


References

  • Kawasaki, J. (2026). Languages as Graph Topologies: A Computational Framework for Cross-Linguistic Syntactic Structure Analysis. Preprint.
  • Tesnière, L. (1959). Éléments de syntaxe structurale.
  • Mel’čuk, I. (1988). Dependency Syntax.
  • Liu, H. (2008). “Dependency Distance as a Metric of Language Comprehension Difficulty.”
  • Futrell, R., Mahowald, K., Gibson, E. (2015). “Large-scale evidence of dependency length minimization in 37 languages.”
  • Hatcher, A. (2002). Algebraic Topology. Cambridge UP.
  • Greenberg, J. H. (1963). “Some universals of grammar with particular reference to the order of meaningful elements.”