感情粒度と適応行動の計算論モデルの試作
モデル全体の構成
本モデルは,階層的能動的推論モデルに感情ネットワークの更新ダイナミクスによる制御を組み合わせた,感情粒度と適応行動の計算論モデルのトイモデルである。モデルは,行動選択を行う下位層,感情の生成を行う上位層,生成された感情をもとに感情粒度パラメータを計算するネットワーク機構の3つのコンポーネントから構成される。大まかなモデルの構成としては,それぞれ次のようになる。
まず,環境のモデルがある。本モデルにおける環境のモデルは,確率逆転学習課題を想定している。エージェントは,左と右の2つの選択肢から選択し,それによって確率的に報酬が得られる。報酬確率は一定ではなく,ある期間が経過したタイミングで逆転する。逆転する期間や具体的な報酬確率は,シミュレーションの設定によって変更される。次に,下位層のモデルがある。
下位層は,実際に確率逆転学習課題に取り組むエージェントを表現したモデルである。エージェントは,信念の更新と行動選択を行いながら,目的(選好)を果たすように動く。信念更新の精度を制御するパラメータ\(\gamma\)は,上位層における感情の更新とネットワーク推定の結果によって動的に変化する。
下位層から上位層へは,感情更新のためのシグナルが送られる。エージェントは,持っていた信念と実際の行動選択の結果によって,各感情が活性化するかしないかを能動的に推論する。感情の能動的推論による経験は,構成主義的情動理論に基づいている。このシグナルは,上位層における観測に変換される。
上位層は,6つの感情カテゴリを持つ部分観測マルコフ決定過程(POMDP)である。上位層ではホメオスタシス(感情の恒常性)の維持を目的とするように設定しているが,トイモデルではあくまでも暫定的な設定であり,選好を変更することで上位層の目的は調整される。
最後に,上位層において生成された感情の時系列データは,ネットワーク推定によってパラメータ化される。具体的には,時系列データに対してノードワイズ正則化ロジスティック回帰を用いることで,ネットワークの重みとノードの閾値を推定する。この計算過程は,数理的にはIsing modelと等価であり,バイナリデータの時系列データから経時的ネットワークを推定していることになる。推定された感情ネットワークは,その密度を計算する。密度は,ネットワーク内のエッジの絶対値総和である。感情粒度はネットワークの密度を用いて定量化することが可能であるという仮定の下で,1から密度を引くことにより,下位層の信念にかかる精度パラメータ\(\gamma\)を動的に更新する。
環境(Environment)
エージェントは,2つの選択肢(Left, Right)を持つ確率逆転学習課題を行う。環境は,Leftが正解である状態1と,Rightが正解である状態2の2つの状態を持つ。また,報酬確率は,正解の選択肢の報酬確率が0.6,不正解の選択肢の報酬確率が0.4である高不確実性条件と,正解の報酬確率が0.9,不正解の報酬確率が0.1の低不確実性条件の2つの条件がある。1回のシミュレーションでは条件はどちらか一つに固定されるため,条件を変えてシミュレーションの結果が比較される。更に環境は,状態が逆転する頻度が異なる2つの条件も持つ。具体的には,100試行ごとに状態が逆転する不安定環境条件と,250試行ごとに状態が逆転する安定環境条件の2つがある。
下位層
下位層では,エージェントは環境と直接相互作用し,信念の更新と行動選択を行う。
変数
状態\(s^{L}:s\in[1,2]\)(どちらの腕が良いかの信念)
行動\(\upsilon^{L}: \in[1,2]\)(Left, Right)
観測\(o^{L}:o \in [get, loss]\)(報酬の有無)
生成モデル
\(A\)(尤度) \(P(o |s)\):状態が正解なら確率0.6(安定では0.9)でget,不正解なら0.4(安定なら0.1)でget
\(B\)(遷移行列)\(P(s_t | s_{t-1},\upsilon_{t-1})\):状態は行動によって変化しないという仮定の下で単位行列に設定
\(C\)(選好)\(P(o)\):報酬2,無報酬-4に設定し,報酬を強く選好。
\(D\)(初期信念):両腕共に0.5
推論
状態の推論では,通常のベイズ更新に加えて精度パラメータ\(\gamma\)による重みづけを導入した。
\[Q(s_t) \propto P(o_t |s_t, \upsilon_{t-1})・Q(s_{t-1})^{\gamma}\]
ここで,\(\gamma\)は0~1の範囲で変動する動的なパラメータである。\(\gamma\)が1に近づくほど,過去の信念を強く保持するように更新され,0に近づくほど過去の信念を重視せず現在の観測に敏感になる。
行動選択
エージェントは,期待自由エネルギー\((G)\)の最小化に基づき行動を選択する。
\[G(\upsilon) = D_{KL}[Q(o|s,\upsilon)||P(o)]+H[Q(o|s,\upsilon)]\]
期待自由エネルギーの第一項は信念と選好のKLダイバージェンスであり,これは目的を達成するための実用的価値(pragmatic value)であり,「利用」を表す。第二項はエントロピー(不確実性)であり,情報の「探索」を行う認識的価値(epistemic value)である。すなわち,情報の利用と探索の両方をバランスよく最小化するような行動の期待自由エネルギーは小さくなる。このように計算された期待自由エネルギーを用いて,実際の行動確率\(P(\upsilon)\)は,期待自由エネルギーの小さい行動で高くなる(ソフトマックス行動選択)。
\[P(\upsilon) = softmax(-G(\upsilon))\]
シグナル
下位層の信念と実際の行動選択の結果から,3つの離散化された指標を得て,上位層への観測信号\(o^{H}\)とする。得られる指標は,以下の3つである。
- 予測誤差の符号(\(signPE\)):
実際に得られた報酬>予測していた期待値→\(+1\)
実際に得られた報酬<予測していた期待値→\(-1\)
それ以外(完全一致)→\(0\)
- KLダイバージェンス(\(KL_{div}\)):下位層における信念更新(サプライズ)の大きさ
- 閾値\(\tau_{KL}\)を超えた場合に\(1\),以下なら\(0\)が符号化される。シミュレーションでは1.0に設定した。
3.不確実性(\(Unc\)):下位層における信念のエントロピー
- 閾値\(\tau_{Unc}\)を超えた場合に\(1\),以下なら\(0\)が符号化される。シミュレーションでは0.35に設定した。
3つのシグナルを組み合わせることで,計12通りの観測インデックス\(o^{H}\in[1,...12]\)を生成した。
上位層
上位層は,下位層から送られる信号を基に,自身の感情状態を能動的推論によって調整するPOMDPである。具体的には,現在の感情状態\(Q(s^{H})\)を推論し,ホメオスタシス状態(選好)\(s^*\)に近づくための内部行動\(\upsilon^H\)を選択する。
変数
状態\(s^{H}\):6つのバイナリノード(感情カテゴリ)の組み合わせ(\(2^6=64\)状態)
ノード(感情カテゴリ)の構成
感情カテゴリは,Pos1,Pos2, Pos3, Neg1, Neg2, Neg3の6種類である。今回は暫定的に,Excitement, Hope, Contentment, Anxiety, Frustration, Disappointmentの6つを想定して設定した。
行動\(\upsilon^{H}:\):13通り(何もしない+各ノードをon/offする操作)
観測$o^{H}:o $:下位層から送られる12通りの信号
生成モデル
\(A\)(尤度) \(P(o^H|s^H)\):特定の感情状態(e.g. Pos要素がonなど)であるとき,特定の観測(e.g. 予測誤差が正)が得られやすい確率分布となる
例えば,\(s^{H}\)のAnxietyが1の時,観測「不確実性が高い(\(o^{H}_3 = 1\))」の確率が高くなる(0.8)
\(B\)(遷移行列)\(P(s^H_t | s^H_{t-1},\upsilon^H_{t-1})\):エージェントが選択した上位層における行動に従って,次の状態の該当ビットが確定する
\(C\)(選好)\(P(s^H)\):ホメオスタシスの定義。暫定的に理想状態を\(s^* = [1,1,1,0,0,0]\)というポジティブ感情が活性化した状態に選好を置いている。
\(D\)(初期信念):全てのカテゴリに等確率。
下位層からのシグナルと上位層の尤度について
行列\(A\)のサイズは,12行(観測\(o^H\)の種類)×64列(状態\(s^H\)の種類)である。
行について
観測\(o^H\)は,下位層からの3つの信号(予測誤差の符号,KLダイバージェンス,不確実性)の組み合わせで決定される。これらを区別するために,以下の式によって各信号から12のインデックスに変換される。
\[Index = (sign_{PE} -1)\times 4 + KL_{high} \times2 +Unc_{high}+1\] ここで,各要素は以下である。
\(sign_{PE} \in [1,2,3]\) (1:負,2:ゼロ,3:正)
\(KL_{high} \in[0,1]\)(0:低,1:高)
\(Unc_{high} \in [0,1]\)(0:低,1:高)
行 ID 予測誤差 (PE) サプライズ (KL) 不確実性 (Unc) 意味 1 負 (Loss) 低 低 Disappointment 2 負 低 高 定義なし / ノイズ 3 負 (Loss) 高 低 Frustration 4 負 (Loss) 高 高 Anxiety 5~8 ゼロ - - 定義なし / ノイズ 9 正 (Get) 低 低 Contentment 10 正 低 高 定義なし / ノイズ 11 正 (Get) 高 低 Excitement 12 正 (Get) 高 高 Hope
列について
状態\(s^H\)は,6つのバイナリノードの組み合わせ(\(2^6=64\))である。各列\(j\)は,特定の感情パターンの組み合わせを表す。
Bit1: Excitement(ポジティブ・高覚醒)
Bit2: Hope(ポジティブ・高不確実)
Bit3: Contentment(ポジティブ・低覚醒)
Bit4: Anxiety(ネガティブ・高不確実)
Bit5: Frustration(ネガティブ・高覚醒)
Bit6: Disappointment(ネガティブ・低覚醒)
尤度行列Aの決定アルゴリズム
まず,全ての要素\(\hat{A}_{ij}\)を0.05で初期化する。その後,各状態\(j\)(列)について,以下のビットが1(on)であれば,対応する観測の行\(i\)の重みを0.8に上書きする。1つの状態で複数のビット(感情)が活性化している場合,複数の行が0.8に上書きされる。
| 状態ビット (\(s^H\)) | 対応する観測行 (\(o^H\)) | 行ID |
| Disappointment (Bit 6) | 負・低KL・低Unc | 1 |
| Frustration (Bit 5) | 負・高KL・低Unc | 3 |
| Anxiety (Bit 4) | 負・高KL・高Unc | 4 |
| Contentment (Bit 3) | 正・低KL・低Unc | 9 |
| Excitement (Bit 1) | 正・高KL・低Unc | 11 |
| Hope (Bit 2) | 正・高KL・高Unc | 12 |
最期に,確率分布であることを担保するため,各列(状態)ごとの合計が1.0になるように正規化される。
\[A_{ij} = \frac{\hat{A}}{\sum^{12}_{k=1} \hat{A}_{kj}}\]
ネットワーク推定
上位層において選択された感情状態の時間的なネットワーク構造を推定し,それを基に下位層の精度パラメータ\(\gamma\)を制御する。
指定したステップの感情状態の履歴を使って,ネットワークを推定する。ノードワイズ正則化ロジスティック回帰によるIsingモデルの時系列データに対する推定を行う。具体的には,ラグ1のロジスティック回帰を行う。
\[logit(P(Z_{i,t} = 1))=\beta_{i,0} + \sum^6_{j=1} W_{ij}Z_{j,t-1}\]
ノードワイズ正則化ロジスティック回帰とIsing モデルは数理的に等価であり,切片が閾値,係数行列が重みになる。 推定した係数行列に対して,閾値処理による正則化を行う。暫定的に,\(|W_{ij}|<0.5\)の場合に0にする。 推定された係数の絶対値を正規化し,その総和を計算する。 \[D_{norm} = \frac{\sum |W^{'}_{ij}|_{normalized}}{Max Possible Sum}\]
この式によって計算されるネットワーク密度\(D\)が高いことは,感情間の結合が強く,固着しているため,感情粒度が低い状態を表す。 下位層における\(\gamma\)は,以下の式で更新される。 \[\gamma = 1.0-D_{norm}\]
シミュレーション結果の分析:固定\(\gamma\)モデルの挙動
本節では,提案モデル(変動\(\gamma\)モデル)の有効性を論じる前提として,パラメータ \(\gamma\) を固定した場合に生じる適応不全のメカニズムを数理的な観点から分析する。シミュレーションの結果,\(\gamma\) が極端に低い場合(0.1)および高い場合(1.0)の双方において,環境変化への適応に失敗することが確認された。以下にその要因を記述する。
低精度モデル (\(\gamma=0.1\)) における情報の散逸
\(\gamma=0.1\) の条件下では,エージェントの信念(Belief)は環境の変化に関わらず \(0.5\)(不確実な状態)付近に停滞し,有益な学習が蓄積されない現象が観察された。これは,ベイズ更新における \(\gamma\) による重みづけと,確率分布の正規化(Normalization)プロセスによって説明される。
信念更新の更新則は,簡易的に以下の比例式で表される。
\[ Q(s_t) \propto P(o_t|s_t) \cdot Q(s_{t-1})^\gamma \]
ここで \(\gamma=0.1\) の場合,過去の信念 \(Q(s_{t-1})\) は \(0.1\) 乗される。確率値 \(p \in [0, 1]\) に対する \(0.1\) 乗操作は,分布を平坦化(flattening)する効果を持つ。 例えば,前回の試行で「左のレバーが良い」という信念が \(0.6\),「右」が \(0.4\) まで学習できていたとする。次回の更新において,事前信念項は以下のように変換される。
\[ \begin{aligned} 0.6^{0.1} &\approx 0.950 \\ 0.4^{0.1} &\approx 0.912 \end{aligned} \]
ベイズ更新においては,確率の総和が1になるよう正規化が行われるため,この時点での事前確率は以下のようになる。
\[ P(Left_{new}) = \frac{0.950}{0.950 + 0.912} \approx 0.51 \]
このように,過去の経験によって生じた確率差(\(0.6\) vs \(0.4\))は,\(\gamma\) 乗と正規化のプロセスを経ることで,次のステップではほぼ等確率(\(0.51\) vs \(0.49\))にリセットされてしまう。この「学習結果の散逸(Memory Loss)」が毎ステップ繰り返されるため,エージェントは過去の情報を蓄積できず,常にその瞬間の観測ノイズに翻弄されることになる。
高精度モデル (\(\gamma=1.0\)) における信念の慣性と探索の停止
一方,通常のベイズ更新に相当する \(\gamma=1.0\) の条件下では,環境変化(ルールの反転)が発生した後も旧ルールに固執し続け,正答率が著しく低下する現象が確認された。この適応不全は,主に以下の2つの要因による。
1. 信念の慣性 (Belief Inertia)
\(\gamma=1.0\) では,過去の信念が減衰することなく累積される。安定した環境下で学習が進み,信念 \(Q(s)\) が極端な値(例: \(0.999...\))に達すると,それは強固な事前分布(Prior)として機能する。 ルールが反転し,一度や二度の「ハズレ(予測誤差)」を観測したとしても,累積された過去の証拠が圧倒的に強いため,事後分布はほとんど修正されない。これは「過学習(Overfitting)」の状態と言え,環境の変化に対する感度を失わせる。
2. 探索の欠如と情報の遮断
さらに致命的なのは行動選択への影響である。能動的推論における行動選択は,信念の確信度(精度)に依存する。信念が \(1.0\) に張り付いている状態では,エージェントは「正解はわかっている」と確信し,決定論的に一方の行動(例:旧正解である左レバー)を選択し続ける。 逆側のレバー(新正解)を選択しない限り,エージェントは「右レバーが当たりやすくなった」という新たな証拠(観測データ)を得ることができない。結果として,信念を修正するためのデータ入力そのものが遮断され,誤った信念が永続化する。
以上の分析から,固定的な \(\gamma\) 値では,変化する環境(Volatile Environment)において以下のトレードオフを解消できないことが示唆される。
- 低 \(\gamma\): 柔軟性は高いが,情報の蓄積ができず学習が成立しない(Underfitting)。
- 高 \(\gamma\): 情報の蓄積は早いが,一度形成された信念が固着し,変化に適応できない(Overfitting / Rigidity)。
したがって,環境の不確実性に応じて \(\gamma\) を動的に調整するメタ学習的なメカニズムが必要不可欠となる。