layout: post
title: "RL"
categories: RL
tags: MBRL
comments: true

[CS294 - 112 정리] Lecture2 - Supervised Learning and Imitation

Table of Contents

{:.no_toc}

  1. this unordered seed list will be replaced by toc as unordered list
    {:toc}

Today’s Lecture

  1. 순차적 의사결정 문제(sequential decision problem) 정의
  2. Imitation learning: 의사결정을 위한 supervised learning.
    1. 직접 모방하는 작업?
    2. 더욱 잘, 자주 동작하는 방법?
  3. (Deep) imitation learning에서 최근 연구의 case studies.
  4. Imitation learning에서 빠진 부분?

Terminology & notation

An image with a caption

순차적 의사결정(Sequential decision making)문제 로 변경하기 위해 decision, sequential things를 추가

An image with a caption

Fully obserbability: 컴퓨터는 입력을 pixel의 값으로만 구성, 물리적 특성을 가진 모멘텀 및 치타와 가젤의 위치를 알 수는 없다 - hidden

An image with a caption

Partial obserbability : 치타가 차에 가려져 있다. state는 추론할 수 없더라도 위 상황과 동일(치타, 가젤의 물리적 특성은 존재하기 때문).

An image with a caption
An image with a caption

Imitation Learning

An image with a caption
An image with a caption
An image with a caption
An image with a caption
An image with a caption
An image with a caption
An image with a caption

문제점 : 사람의 노동력(a lot of effort, right action)이 너무 많이 들어간다.

An image with a caption

DAgger 문제점

많은 데이터(외부개입)없이 성능향상 할 수 있는 방법은 무엇인가?

왜 전문가와 매칭하는 것이 실패할까?

  1. Non-Markovian behavior
An image with a caption
  1. Multimodel behavior
An image with a caption
An image with a caption

Imitation learning: recap

An image with a caption

Case study

An image with a caption
An image with a caption
An image with a caption

Imitation Learning의 한계


Reference

CS294-112 Lecture1