머신 비전 프로젝트 1 - 주제 선정
포스트
취소

머신 비전 프로젝트 1 - 주제 선정

table of contents

아이디어 탐색

  • 실현 가능성을 무시하고 최대한 많은 아이디어 뱉기
  • 뱉은 것 중에 고르기
    1. 일단 전부 전시하기
    2. 비슷한 것끼리 클러스터링하기
    3. 전체 아이디어의 공통 분야 파악하기
    4. 2가지 기준으로 2차원 배열 만들어서 분류하기
    5. 빈 칸은 어떻게든 채우기
    6. 그 중에 베스트 3 뽑기
    7. 그 중에 뭘 할지는 다른 조가 정해주기

조별 발표

1조

  • 분류 기준: 기술 / 서비스
  • (1) 수기 악보 → 디지털 음원
  • (2) 손글씨 OCR + 서체 구분
  • (3) 버스 번호 인식: 버스 정류장에 들어오는 번호 인식
  • 질문
    • 악필 라벨링은: 디지털 글을 보고 필사
    • 사람도 못알아보는 글씨는: 그것까지는 안할래
    • 악기 여러 개 있어도 쓸거야? 예
    • 드럼 악보는 체계가 다른데 그것까지 할거냐? 너무 넓어
    • 오선지만 하겠다
    • 디지털 음원 예상 효과: 사실 그닥 없고 재미로 골랐다
    • 음악 좋아해요? 아뇨,,,

2조

  • 모션 제스처 단축키
    • 삼성은 이미 비슷한 기능이 있다 그거 만들 거임
    • 차이는 커스텀이 좀 더 된다는 점
  • 버드 스트라이크 예방
    • 공항 주변에 새나 드론 등 비인가 비행체가 가끔 있는데, 그걸 감시하다가 진입이 감지되면 사람을 보내 조치하도록 한다
  • AR 지도 정보 길찾기
    • 포켓몬고 비슷한 거임
    • 현재 위치를 사진으로 찍고 목적지를 정하면 지금 여기서 어디로 가야 할지 안내함
    • 박람회같은 경우 사람이 많은데 지형지물이 가려져도 가능하겠냐? 가이드라인을 제공하겠다

3조

  • 탈락 주제
    • OCR: 문서에서 오타 교정
    • 얼굴 인식: 수업 중 조는 게 보이면 언제부터 언제까지 졸았는지 체크해서 그 시간 동안 자동 녹화
    • 사물 인식: 모기 터렛
  • 시각 장애인 위한 위치 추정 및 경로 추천
    • 출발점과 도착점의 사진을 입력. 객체 탐지 및 혼잡도 파악으로 경로 안내.
    • 출발점의 사진 필요, 가는 내내 실시간 카메라 필요
  • 레시피 가이드
    • 재료를 다 준비한 상태에서 이미지 입력
    • 요리는 정해진 상태로 진행
    • 사용자의 다음 행동을 안내함
  • 캐리어 최적화
    • 어디에 어떻게 구기면 잘 들어갈지 알려줌
    • 물체 탐지 → 사이즈 분석(물체 강도, 압축 성능 덤) → 최적 배치 출력

4조

  • 엘리베이터 대기열 분석
    • CCTV 영상 기반 층별 대기열과 수용 인원 감지하여 최적의 엘리베이터 추천
    • 엘리베이터 지킴이에게 데이터를 공유해서 스케줄링을 떠넘기겠다
    • 엘리베이터 무게 감지랑 인원수 감지랑 뭔 차이냐 카메라의 이점이 뭐냐 → 무게와 인원 수는 꼭 비례하지 않을 수 있다. 둘 다 고려하기 위해 영상을 사용하는 것
    • 인외 사물의 부피도 같이 고려하겠는가? 예
    • 스케줄링 어떻게 할거임? 납득이 안돼요. → 엘리베이터 알고리즘은 완전히 모르더라도 어디서 어디로 가고자 할 때 얼마나 걸릴지 계산을 해보고, 각 엘리베이터의 서로 다른 상황을 분석해서 최적의 줄을 추천해주겠다는 거임.
    • 사실 최신 건물은 버튼 하나로 알아서 스케줄링이 되거든요. 차별점이 있냐? → 레거시 엘리베이터 기준으로 보자는 거잖아 여기 건물 엘리베이터 말입니다.
    • 최적화 잘됐는지 평가는 어떻게 할래 → 출퇴근 시간의 인원이 n백명 단위로 매일 일정한 수준을 유지할 것으로 보고, 각 사람들이 얼마나 빨리 원하는 층에 도달할지 측정하겠다.
  • 비대면 면접 분석 시스템
    • 자세 시선 행동 분석으로 평가 및 피드백 제공
    • 합격 가능성은 어떻게 할래 → 점수화하겠다는 게 아니라 피드백을 해주겠다는 거임
    • 안 좋은 제스처는 마이너스하고 그런 식
    • 제스처 점수는 통상적인 기준으로 할 것

5조

  • 안전용 도어 블랙박스
    • 범죄 예방 목적
    • 현관 앞 수상한 행동 감지 알림
    • 자세 추정, 물체 탐지 등 활용
    • 택배 기사인 척 찾아오는 수상한 인간, 취객 등 확실하게 문제가 있는 사람 대상
    • 수상한 제스처라는 기준을 잡을 수 있을까? → 도메인이 부족해서 경찰 관련 데이터를 찾아보고자 한다. 조사 필요. 행동 패턴 수집 후 근거 정할 것 같다
  • 분리수거 게임
    • 일반 아파트의 분리수거장을 대상으로, 그 공간에 분리수거를 평가할 카메라를 두어 잘하면 가산점, 이달의 우수사원 전시
    • 예를 들면 라벨 붙은 플라스틱 병 감점 같은 것
    • 분리수거를 할 수 있는 종류가 보통 생각하는 클래스들이 있는데, 그거 얼마나 많이 고려할거임? → 보통 당연히 떠올리는 것들 정도.
      • 만약 투명 페트병이 있고 투명 유리병이 있으면 어떻게 구분하실래? → 모양 상 차이가 있으니 구분 될 것 같아
  • 테마파크 얼굴 인식 입장료
    • 빠르게 입장하게 해주자
    • 우대 사항 자동 분류: 군인, 노인, 임산부
    • 동양인과 서양인의 얼굴 나이 차이 고려? → 추후 해보겠음
    • 임산부가 얼굴로 구분이 돼요? → 상반신을 좀 더 넓게 찍겠다. 단순 비만의 경우도 추후 계획해보겠다.
      • 임산부 뱃지도 고려해보겠다
      • 외형적 차이는 좀 더 고민해봐야겠음
    • 할인혜택 구분은 해서 뭐 어떻게 하겠다는 거임? 안내하는 거임 아님 그냥 입장료 계산만 알려주는 거임? → 키오스크 팝업 화면으로 추천하겠다

6조

  • 기상 알람 해제 미션
    • 참참참, 가위바위보, 디비디비딥 등
    • 너무 운이 안좋아서 해제를 못한 경우 → 참가상으로 인정해주기로
  • 강의실 관리
    • 자리 기반 출결 체크
    • 퇴실 시 정리 점검
  • 전동 킥보드 운전자 점검
    • 헬멧 썼냐
    • 몇 명 탔냐
    • 탑승 인원은 어떻게 감지하실래? → 킥보드 박스와 사람 박스의 겹치는 정도를 계산하는걸로 예상하고 있다
    • 운전하는 동안 보는거냐 아님 처음 탈 때 보는거냐? → 다른 사람이 찍어서 확인하는 방식을 계획했다 → 그럼 주 활용은 불심검문임? 그렇다
    • 탐승 인원 감지의 경우 두 명만 타도 거의 겹쳐있게 된다. 학습 시 어려움이 예상되는데 어떻게 할래? → 그게 이 주제의 챌린지라는 거임. 데이터를 많이 확보하는 식으로 생각 중이다.
    • 사후 감지 말고 사전 방지는 안되겠냐? → 좋은 아이디어 ok. 탑승 인원은 뒤에 숨으면 안보이니까 고민은 해보겠다만 말은 좋았어

아이디어 구체화

  • 빼도 되는 것, 핵심 아닌 것, 지금 중요한 거 아닌 것, 얼버무려도 되는 것 → 현실적으로 범위 줄이기
  • 입력 이미지와 출력 결과물 계획해오기. 실제 결과물이 어떻게 될건지 데모 보여주기. 작동 X. 티저 만들어오라는 거임.

발표 내용

  • 주제: 손글씨 스타일 폰트 분류기 + 사람 손글씨 구분
  • 손글씨 스타일 폰트 분류
    • 목표
      • 단어 단위로 주어진 이미지로부터 해당 이미지가 무슨 폰트의 글씨인지 구분하는 것
    • 데이터
      • TRDG 라이브러리로 데이터 생성
      • 문장 이미지를 입력할 경우 단어 단위로 잘라넣는 전처리가 포함됨
      • 네이버 나눔손글씨 폰트 8개 가량 이용
      • 사진 촬영을 감안하여 색조 변화, 노이즈, 투시 변경 등 처리
    • 모델
      • CNN 기반의 전이학습 모델 사용
      • 한 글자 단위 분류까지 목표 (안 되면 어쩔 수 없고)
      • 여러 줄 문장이 주어질 경우 글자 단위로 나눠서 한 번에 일정 글자 분량만 각각 처리, 처리된 결과들은 voting으로 간주하여 최종 폰트 결과 출력
  • 사람 손글씨 구분
    • 목표
      • 팀원들의 손글씨를 대상으로 누가 쓴 글씨인지 구분할 수 있도록 함
    • 구현 방식
      • 손글씨 폰트 분류기를 사전 학습 모델로 삼아 튜닝: 가중치와 특징 추출부는 유지하고 분류기 부분만 교체하여 모델을 적응시킴
    • 고려 사항
      • 디지털로 작성된 폰트와 달리 실제 손글씨는 훨씬 불규칙하므로 이미지 전처리가 중요
      • 손글씨 데이터 수집량에 한계가 있으므로 증강 필요
      • 글자 내용보다 필적의 특징이 중요하기 때문에 다양한 문장을 쓰는 것보다는 비슷한 문장을 많이 쓰는 것이 유리함

내일 할 일

  • 테스트 시스템 구축
    • 테스트 데이터셋 만들기
    • 테스트 코드 작성(모델 코드는 빈 함수로 틀만 구현)
    • 테스트 결과 반환: 손실, 정확도 등
  • 테스트 시스템의 용도: 모든 팀원이 1인 1모델을 만들어서 가장 우수한 것을 선정하기 위함, 모델 구현 중 성능 파악 위함
  • 빈 모델이라도 인터페이스(파라미터, 반환값 등)는 통일되어야 함
    • 캐글 참고하세요 입력 데이터와 출력 데이터 형식을 똑같이 하면 된다는 말임
이 기사는 저작권자의 CC BY-NC-ND 4.0 라이센스를 따릅니다.

머신 비전 시스템 구현 (5)

머신 비전 프로젝트 1 - 주제 구체화 및 테스트 코드 작성