Mobile Study: Part 3/5: 個別最適化学習を実現するポリシー学習の実装：DQN・PPO・SACの選択基準とBKTによる知識状態表現

前回のPart 2では教育AIにおける報酬関数の設計原則を詳述した。本稿では、その報酬シグナルを最大化するポリシーを学習するアルゴリズムの選択基準に踏み込む。特にDQN・PPO・SACという三つの代表的手法を教育ドメインの制約と照合しながら評価し、Bayesian Knowledge Tracing（BKT）と組み合わせて生徒の知識状態を状態表現に組み込む手法、そしてPythonによる簡易的な適応型問題推薦エージェントの実装例を提示する。

RLアルゴリズム選択の前提：教育ドメイン固有の制約

教育AIにおける強化学習の行動空間は、問題バンクから次に提示する問題を選択する「離散選択」が中心となる。また、サンプル効率（少ない生徒インタラクションで収束すること）と安定性（報酬のスパース性への耐性）が実用上の重要指標となる。OpenMAICプロジェクトはこうした教育特化の強化学習基盤を提供しており、複数のポリシー最適化手法を比較検証できる環境を整備している [Source: https://github.com/THU-MAIC/OpenMAIC]。

DQN：離散行動空間への自然な適合

Deep Q-Network（DQN）は離散行動空間において強力なベースラインを提供する。MnihらがNatureに発表した手法は、Experience Replayとターゲットネットワークによって学習を安定化させる [Source: https://www.nature.com/articles/nature14236]。教育AIの文脈では、問題バンクのインデックスが直接行動に対応するため、行動空間が数百から数千の問題規模であればDQNは十分に機能する。ただし、行動空間が10,000を超える大規模問題バンクでは、Dueling NetworkやPrioritized Experience Replayなどの拡張が必要となる場面が多い。

PPO：安定性を重視するオンポリシー学習

Proximal Policy Optimization（PPO）はクリッピングによってポリシー更新を安定させるオンポリシー手法である [Source: https://arxiv.org/abs/1707.06347]。教育AIでは一人の生徒との対話履歴が比較的短いエピソードを形成する。このエピソード構造とPPOのバッチ更新は相性がよく、各生徒セッションをミニバッチとして積み重ねることで安定した収束が期待できる。一方、オンポリシーであるためサンプル効率はDQNよりも劣る傾向があり、リアルタイムで学習を更新する用途にはオフラインのリプレイバッファを活用するDQN系の方が有利な場面もある。

SAC：エントロピー正則化による探索と活用のバランス

Soft Actor-Critic（SAC）は最大エントロピー強化学習の枠組みに基づき、報酬最大化とポリシーのエントロピー最大化を同時に行う [Source: https://arxiv.org/abs/1801.01290]。離散版SACを適用することで、教育AIにおける探索（新しい問題タイプの試行）と活用（既知の効果的な問題の反復）のトレードオフを自動的に調整できる。特に生徒ごとに学習スタイルが異なる状況では、エントロピー係数αを個別にチューニングすることで汎用性の高いカリキュラムが生成可能となる。

BKTによる知識状態のモデル化と状態表現への統合

BKT（Bayesian Knowledge Tracing）はCorbett & Andersonが1994年に提案した古典的モデルであり、生徒が各スキルを「習得済み」か「未習得」かという隠れ状態で表現し、正誤応答から事後確率をベイズ更新する [Source: https://dl.acm.org/doi/10.1207/s15327051hci0901_3]。RL状態ベクトルにBKTの事後確率ベクトルを連結することで、ポリシーネットワークは「どのスキルがどの程度定着しているか」という情報を利用して最適な次問題を選択できるようになる。

以下はBKT単一スキルのPython最小実装である。

class BKTSkill:     def __init__(self, p_init=0.3, p_learn=0.1, p_slip=0.1, p_guess=0.2):         self.p_know = p_init         self.p_learn = p_learn         self.p_slip = p_slip         self.p_guess = p_guess      def update(self, correct: bool) -> float:         if correct:             likelihood = (                 self.p_know * (1 - self.p_slip)                 + (1 - self.p_know) * self.p_guess             )             p_know_posterior = (                 self.p_know * (1 - self.p_slip)             ) / likelihood         else:             likelihood = (                 self.p_know * self.p_slip                 + (1 - self.p_know) * (1 - self.p_guess)             )             p_know_posterior = (                 self.p_know * self.p_slip             ) / likelihood         self.p_know = p_know_posterior + (1 - p_know_posterior) * self.p_learn         return self.p_know

複数スキル分のBKT確率ベクトルをDQNまたはPPOの状態入力として渡すことで、生徒固有の知識プロファイルに基づいた動的な問題推薦が実現する。実装上の注意点として、BKTパラメータ（p_learn, p_slip, p_guess）は問題セットのドメインに合わせて最尤推定またはEMアルゴリズムで事前に推定しておくことが推奨される。

アルゴリズム選択のガイドライン

基準	DQN	PPO	SAC（離散版）
サンプル効率	高	中	高
実装複雑度	低	中	高
探索の柔軟性	中（epsilon-greedy）	低	高（エントロピー）
大規模行動空間	拡張必要	適応可能	適応可能

小から中規模の問題バンク（1,000問程度まで）かつ開発初期段階ではDQNが推奨される。本番環境で安定性と調整コストのバランスを取るにはPPO、探索の多様性が求められる高度な個別最適化システムではSACが有力な選択肢となる。BKTとの組み合わせはいずれのアルゴリズムにも適用可能だが、状態次元が増加することに伴いネットワークアーキテクチャの調整が必要となる点に留意されたい。

次回予告

Part 4では、このポリシー学習基盤の上に「カリキュラム自動生成」の仕組みを組み込む方法を解説する。難易度の段階的スケジューリングとSelf-Paced Learningとの統合、そして複数の学習目標を同時に最適化する多目的報酬設計が中心テーマとなる。

Category: LLM | Tags: 強化学習, 教育AI, Bayesian Knowledge Tracing, DQN, 個別最適化学習

Mobile Study

2026年3月18日水曜日

Part 3/5: 個別最適化学習を実現するポリシー学習の実装：DQN・PPO・SACの選択基準とBKTによる知識状態表現