table of contents
컴퓨팅적사고는 정리 안할란다. 내가 거기서 뭐 얼마나 새로운 걸 배우겠냐.
강화학습
- MDP(마르코프 의사 결정): 현재 상태가 과거에 대한 모든 정보를 담고 있다고 전제하고, 과거는 신경쓰지 않고 현재 상태만 갖고 판단하기.
- 월드와 에이전트: 에이전트는 월드에 대해 행동하고 월드는 에이전트의 행동에 대해 관측값과 보상을 준다.
- model, policy, value function: 에이전트, 에이전트의 행동 방식, 에이전트의 행동이 갖는 가치
- Transition (dynamic) model, Reward model: 전자는 행동에 대한 관측값으로 다음 상태를 예측하고, 후자는 현재 상태와 행동으로 관측값을 받고 리워드가 결정됨.
- transition graph: 모델이 갖는 상태와 모델이 할 수 있는 행동에 대하여, 각 상태에서 행한 행동이 어떤 상태로 이어질 수 있고, 그렇게 될 확률은 얼마나 되며, 그때 얻을 수 있는 보상을 표시한 그래프
디지털회로및실습
- 표본화 정리: 최대 주파수의 2배 이상의 주파수로 샘플링을 하면 원본을 복구할 수 있다.
- 진수 변환: 10진수는 일단 2진수로, 2진수는 3개씩 묶으면 8진수 4개씩 묶으면 16진수
- 진수 연산: 2의 보수 사칙연산이 제일 편하다. 그냥 계산해도 맞는 값이 나오니까.