23년 2학기 2주 수업

게시 2023/09/22

By dapin

2 분읽는 시간

table of contents

강화학습
디지털회로및실습

컴퓨팅적사고는 정리 안할란다. 내가 거기서 뭐 얼마나 새로운 걸 배우겠냐.

강화학습

[강화학습] 2주 수업

MDP(마르코프 의사 결정): 현재 상태가 과거에 대한 모든 정보를 담고 있다고 전제하고, 과거는 신경쓰지 않고 현재 상태만 갖고 판단하기.
월드와 에이전트: 에이전트는 월드에 대해 행동하고 월드는 에이전트의 행동에 대해 관측값과 보상을 준다.
model, policy, value function: 에이전트, 에이전트의 행동 방식, 에이전트의 행동이 갖는 가치
- Transition (dynamic) model, Reward model: 전자는 행동에 대한 관측값으로 다음 상태를 예측하고, 후자는 현재 상태와 행동으로 관측값을 받고 리워드가 결정됨.
transition graph: 모델이 갖는 상태와 모델이 할 수 있는 행동에 대하여, 각 상태에서 행한 행동이 어떤 상태로 이어질 수 있고, 그렇게 될 확률은 얼마나 되며, 그때 얻을 수 있는 보상을 표시한 그래프

디지털회로및실습

[디지털회로및실습] 2주 수업

표본화 정리: 최대 주파수의 2배 이상의 주파수로 샘플링을 하면 원본을 복구할 수 있다.
진수 변환: 10진수는 일단 2진수로, 2진수는 3개씩 묶으면 8진수 4개씩 묶으면 16진수
진수 연산: 2의 보수 사칙연산이 제일 편하다. 그냥 계산해도 맞는 값이 나오니까.

이 기사는 저작권자의 CC BY-NC-ND 4.0 라이센스를 따릅니다.

최근 업데이트

인기 태그

지식 IT 모빌리티 현대오토에버 내가 해냄 딥러닝 문제풀이 PHM CPS 자료구조

바로가기

인기 태그

지식 IT 모빌리티 현대오토에버 내가 해냄 딥러닝 문제풀이 PHM CPS 자료구조

새 버전의 콘텐츠를 사용할 수 있습니다.