본문 바로가기
딥러닝/딥러닝

[CS231n] Introduction

by DUSTIN KANG 2020. 9. 7.

*해당 포스팅은 Standford Universiy의 CS231n: Deep Learning for Computer Vision을 참고하며 작성한 내용입니다.

 

Computer Vision?

Computer Vision은 Visual Data(시각적 데이터)에 대한 연구입니다.

Computer Vision이라는 영역은 단순 컴퓨터 공학에만 있는 분야가 아니라 물리학, 엔지니어링, 생물학, 수학 등 다양한 영역에도 관련이 있는 학문입니다. 비전의 대한 역사로 60년부터 80년대까지 컴퓨터 비전에 관한 연구가 지속되었지만 단순한 수준(toy example)에 불과했고 많이 진보하지 못했다고 합니다. 객체 인식이 너무 어렵기 때문에 먼저 객체 분할(Object Segementation)에 접근하게 됩니다.

 

Object Segementation(객체 분할)이미지의 각 픽셀을 의미있는 방향으로 군집화하는 방법을 의미합니다.

이는 버클리 대학에 Jitendra Malik 교수와 Jianbo shi 학생이 이미지 분할 문제를 해결하기 위해 그래프 이론을 사용했습니다.

 

그 이후, 2000년 초반에는 Paul Viola와 Michael Jones가 AdaBoost라는 통계적 기계학습을 이용한 실시간 얼굴인식에 큰 성과를 내게 됩니다. 2010년도 까지는 특징기반 객체인식 알고리즘이 시대를 풍미했습니다.  David Lowed의 SIFT 특징으로 앵글이나 화각이 변해도 불변하는 특징을 발견하는 것입니다. 

 

객체 인식 알고리즘의 성능은 꾸준히 증가합니다. 21세기 초에 오면서 컴퓨터 비전을 공부하기 위한 실험 데이터를 만들게 됩니다.

가장 영향력있는 Benchmark Dataset 중 하나는 PASCAL Visual Object Challenge 였습니다.

 

PASCAL Visual Object Challenge

컴퓨터 비전의 연구 분야는 대표적으로 화질 개선, 객체 검출, 인식(Recognation)등이 있습니다. 응용 분야로는 Machine Vision, 비전을 활용한 다양한 인공지능 서비스가 있습니다.

 

Image

Pixel이 바둑판 모양의 격자에 나열되어 있는 2차원 형태를 말합니다. 2차원 배열의 형태를 띄는 이유는 하나의 값마다 0부터 255까지의 256개의 데이터를 가지고 있기 때문입니다. 이미지를 표현하는 방식으로는 두 가지로 나뉘게 됩니다.

  • GrayScale : 밝기 정보로만 구성된 영상 
  • TrueColor : 색상 정보를 갖고 있는 표현 정보로 RGB라는 색의 3원색으로 표현합니다.

width X height X 3(RGB 3 Channels)

 

이미지 파일의 표현
이미지 파일의 종류로는 BMP, JPG, GIF, PNG 등이 있습니다. 주로 사용하는 종류는 BMP와 PNG, JPG라고 이 셋의 차이는 다음과 같습니다. BMP는 압축없이 그대로 저장하는 방식입니다. 효율성보다는 정확성을 생각한다면 BMP로 처리하는 편이지만 그만큼 많은 데이터를 요구하기 때문에 단점이 있습니다. 반면 JPG는 손실 압축(Lossly Compression)의 표현 방식입니다. 컬러 영상(이미지)를 효율적으로 표현하기 위한 방식이죠. PNG는 무손실 압축 방식이며 알파채널(alpha, 투명도)를 지원하는 방식입니다. 어떤 방식이 좋다기 보다 목적에 따라 달라질 것 같습니다.

 


☕️ 포스팅이 도움이 되었던 자료

오늘도 저의 포스트를 읽어주셔서 감사합니다.

설명이 부족하거나 이해하기 어렵거나 잘못된 부분이 있으면 부담없이 댓글로 남겨주시면 감사하겠습니다.