23년 2학기 2주 수업
포스트
취소

23년 2학기 2주 수업

table of contents

컴퓨팅적사고는 정리 안할란다. 내가 거기서 뭐 얼마나 새로운 걸 배우겠냐.

강화학습

[강화학습] 2주 수업

  • MDP(마르코프 의사 결정): 현재 상태가 과거에 대한 모든 정보를 담고 있다고 전제하고, 과거는 신경쓰지 않고 현재 상태만 갖고 판단하기.
  • 월드와 에이전트: 에이전트는 월드에 대해 행동하고 월드는 에이전트의 행동에 대해 관측값과 보상을 준다.
  • model, policy, value function: 에이전트, 에이전트의 행동 방식, 에이전트의 행동이 갖는 가치
    • Transition (dynamic) model, Reward model: 전자는 행동에 대한 관측값으로 다음 상태를 예측하고, 후자는 현재 상태와 행동으로 관측값을 받고 리워드가 결정됨.
  • transition graph: 모델이 갖는 상태와 모델이 할 수 있는 행동에 대하여, 각 상태에서 행한 행동이 어떤 상태로 이어질 수 있고, 그렇게 될 확률은 얼마나 되며, 그때 얻을 수 있는 보상을 표시한 그래프

디지털회로및실습

[디지털회로및실습] 2주 수업

  • 표본화 정리: 최대 주파수의 2배 이상의 주파수로 샘플링을 하면 원본을 복구할 수 있다.
  • 진수 변환: 10진수는 일단 2진수로, 2진수는 3개씩 묶으면 8진수 4개씩 묶으면 16진수
  • 진수 연산: 2의 보수 사칙연산이 제일 편하다. 그냥 계산해도 맞는 값이 나오니까.
이 기사는 저작권자의 CC BY-NC-ND 4.0 라이센스를 따릅니다.

[강화학습] 2주 수업

23년 2학기 3주 수업