CMU10703 - Maximum Entropy Inverse RL, Adversarial imitation learning
in Reinforcement learning / Reinforcement learning on Cmu
Table of Contents
Inverse Reinforcement learning
- IRL은 diagram을 뒤집은 것
- Demonstration trajectories의 finite set이 주어지고, reward R 및 policy \(\pi^*\)을 복구!
DAGGER setup과 대조적으로, 추가적인 label에 대해서 전문가와 상호작용하는 query가 필요없다.
- 수식적으로 imitation은 distribution matching problem 으로 압축:
- Learner는 resulting state, action trajectory distribution이 expert trajectory distribution과 매칭 되는 reward/policy로 구성되어야 한다.
Introduction
- IRL 문제는 (Russell, 1998) 와 같이 비공식적으로 아래와 같이 특징되어(characterize)질 수 있다:
- Given :
- 다양한 상황에서, time에 따른 agent’s behavior 측정 값.
- 필요에 따라, agent에 대한 sensory input 측정 값.
- 가능하다면, 환경 모델.
- Determine:
- 최적화되는 reward function.
- Given :
- 기존에는 “expert”의 policy 를 학습.
- 저자는 expert’s reward function을 복구하고 desirable behavior를 생성을 제안
- RL은 policy보다 reward function이 더욱 succinct, robust, transferable 하다는 전제에 기반.
- 이 논문에서는, 머신러닝관점에서 IRL 문제를 다룸(경제학, 제어에서도 IRL 문제를 풀려는 시도가 존재)
- Section 2. MDP 및 IRL 정의
- model 및 policy가 완전히 주어진 상태에 focus.
- Section 3. 주어진 policy가 최적가 최적인 모든 reward function들의 집합에 대해 다룸
- Problem: 많은 degenerate solution (e.g., reward function = 0) 들을 포함한 집합에 대해 시연.
- Solution: Sub-optimal policy들과 observed policy의 차이를 최대화하는 reward function을 식별(identify)하는 heuristics 를 통해 문제 해결.
- LP(Linear Programming) 를 사용하여 discrete case에서 효과적으로 진행.
- Section 4. large or infinite state space에 대해 다룸.
- Reward function의 tabular representation은 infeasible.
- 고정된 basis function 및 임의의 linear combination으로 fitting된 reward function을 표현한다면, IRL 문제는 LP로 분류하고 효율적으로 풀 수 있음.
- Section 5. 관측되는 trajectory들의 finite set을 통해서만 policy를 알 수 있는 현실적인 경우에 대해 다룸.
- 단순히 iterative 알고리즘으로 해결.
- Section 6. 위 세가지 알고리즘 적용.
- Discrete, continous stochastic navigation 문제. “mountain-car” 문제
- 모든 경우에 observed behavior를 잘 “설명”할 수 있는 reward function을 복구 할 수 있다.
- Section 7. 요약 및 후속 연구 방향 소개
- Section 2. MDP 및 IRL 정의
Notation and Problem Formulation
- Notation, definition, basic theorems for MDPs에 대해 소개.
- 우리가 앞으로 다룰 IRL 문제에 대해 정의.
Markov Decision Processes
- (finite) MDP: tuple \((S, A, {P_{sa}}, \gamma, R)\), where
- S: N개 states 의 finite set.
- \(A = {a_1, ..., a_k}\): k actions 의 집합.
- \(P_{sa}(\cdot)\) : state s 에서 action a 를 취하는 state transition probabilities.
- \(\gamma \in [0, 1)\) : discount factor.
- R : \(S \mapsto \mathbb{R}\) : reinforcement function, \(R_{max}\)에 의한 절대 값으로 bounded.
- 설명(exposition)을 단순화 하기 위해서, R(s,a)을 R(s)로 reward 표기, extension은 trivial.
- Policy: map \(\pi: S \mapsto A\) 으로 정의
- Value function: policy \(\pi\) 에 대해 \(s_1\)에서 평가 될 때 다음과 같다.
where expection is over the distribution of the state sequence \((s_1, s_2, ...)\) we pass through when we execute the policy \(\pi\) strating from \(s_1\).
- Q-function:
(where the notation \(s' ~ P_{sa}(\cdot)\) means the expectation is with respect to s’ distributed according to \(P_{sa} (\cdot)).\)
Optimal value function: \(V^* (s) = sup _{\pi} V ^\pi (s)\)
Optimal Q-function: \(Q^* (s,a) = sup _\pi Q^\pi (s,a)\)
Discrete, finite space 경우에는, 모든 이러한 함수들은 boldface notation 으로 쓰였으며, state에 index된 vector들로 표현. 더욱 정확하게 finite state space S 의 1부터 N까지 열거하는 것.
- Reward: i th 요소가 MDP의 i th state 에서 reward를 가지는, N-차원 vector R 로 정의.
- \(V^\pi\): state i 에서 평가되는 \(\pi\) 에 대한 i th 요소를 가지는 vector.
\(P_a\): 각 action a 에 대해서, element (i, j) 가 satet i 에서 action a 을 취해 state j 로 transitioning의 probability를 주는 N-by-N matrix.
- 일반적인 RL의 목표는 \(V ^\pi\) 를 최대화하는 policy \(\pi\)를 찾는 것.
- 모든 \(s \in S\) by \(\pi = \pi ^*\) 에 대해서 \(V^\pi\) 가 동시에 최대화되는 하는 optimal policy \(\pi ^*\) 가 하나라도 존재하는 것을 보였다. (e.g., Sutton & Barto, 1998; Bertsekas & Tsitsiklis, 1996)
Basic Properties of MDPs
IRL 문제에 대한 저자의 solution을 위해, MDPs (Sutton & Bartp, 1998; Bertsekas & Tsitsiklis, 1996) 에 대해서 고전적인(classical) 두 개의 결과가 필요.
Theorem 1 (Bellan Equations)
- _Let an MDP M = \((S, A, {P_{sa}}, \gamma, R)\) and policy \(\pi\) : S \(\mapsto\) A be given.
- Then, for all s \(\in S, a \in A, V ^\pi Q ^\pi\) 는 다음을 만족.
- Theorem 2 (Bellan Optimality)
- Let an MDP M = \((S, A, {P_{sa}}, \gamma, R)\) and policy \(\pi\) : S \(\mapsto\) A be given.
- Then \(\pi\) is an optimal policy for M if and only if, for all \(s \in S\),
Inverse Reinforcement Learning
- IRL 문제는 obsercved behavior를 설명할 수 있는 reward funcion를 찾는 것
- State space가 finite, model이 알려져 있고, 완벽히 policy가 관측될 때의 간단한 경우부터 시작.
- 구체적으로, finite state space S, k actions A =\({a_1, ..., a_k}\)의 집합, transition probabilities \({P_{sa}}\), a discount factor \(\gamma\), policy \(\pi\) 가 주어짐.
- 목표: MDP \(S, A, {P_{sa}, \gamma, R}\)에서 \(\pi\)가 optimal policy인 가능한 reward function R의 set를 찾는 것.
- 필요에 따라 action들을 rename하여, loss of generality 없이 \(\pi(s) \equiv a_1\)을 가정.
- 이것은 notation을 단순화하기 위한 기술.
IRL in Finite State Spaces
- 저자는 주어진 policy가 optimal인 모든 reward function들의 집합의 단순한 특징(characterization)을 제공.
Reference
- [Algorithms]