반응형
Image Segmentation
목차
0. PREVIEW
1. 영상 분할의 원리
2. 전통적 방법
3. 민시프트
4. 대화식 물체 분할
5. 알고리즘 선택
0. PREVIEW
사람 뇌의 영상 분할
- 사람의 뇌는 다음과 같이 영상 분할 과정이 일어남
- 상자위에 쌓여있는 형형색색의 파프리카라고 해석하는 과정
- 동시에 상자, 파프리카, 가격표와 같이 의미 있는 영역으로 분할
- 즉, 분할과 인식이 동시에 일어남
컴퓨터 비전
- 현재는 분할 후 인식하는 순차 처리
- 동시 수행을 추구하는 연구도 있으나 초보 단계
- 가장 어려운 문제 중 하나
1. 영상 분할의 원리
분할의 정의
생각해 볼 점
- 적절한 분할이란?
- 저분할과 과분할
- 사람 vs. 컴퓨터
- 사람은 선택적 주의집중과 능동비전 기능을 가지며, 분할 과정에서 고급 지식 사용; 물체, 모델, 지식, 의도 등
- 컴퓨터는 사람 수준까지는 아님; 분할이 끝나야만 고급 지식을 이용하여 인식 수행
분할의 어려움
- 이웃 화소 몇 개를 보고 자신이 영역의 내부인지 경계인지 판단할 수 있을까?
- 전역 연산 필요성
에지 vs. 영역
- 개념적으로 에지는 영역의 경계에 해당
- 하지만 에지 검출로는 한계
- 거짓 긍정, 거짓 부정 -> 폐곡선을 이루지 못함
영역 vs. 지역특징
- 사람은 지역 특징보다 영역 분할에 훨씬 뛰어남
- 반면 컴퓨터 비전은 영역보다 지역 특징으로 문제 해결하는 사례가 많음
2. 전통적 방법
동작 조건
- 특수 조건 만족하거나 단순한 영상에서만 작동함
- 예) 공장 자동화, 문서 인식 등
- 문제가 쉽다면 굳이 복잡한 알고리즘 쓸 필요 없음
- 자연 영상에서는 매우 낮은 성능을 보임
2.1 임계화를 이용한 영역 분할
이진화를 이용한 영역 분할
- 문서 영상의 경우 오츄 이진화는 훌륭한 영상 분할 알고리즘
- 하지만 명암 단계가 둘 이상인 경우는 오작동
삼진화로 확장
- 이중 임계값 사용
- 사진 전체 평균($\mu_g$)과 각각의 분할 구역의 평균($\mu_n$)과의 차이를 보는 것,
- 즉 그 차이가 최대가 되는 곳을 분할 구역을 구분하는 $t_1, t_2$로 구함
이중 임계값 오츄 알고리즘
#input = image f(j,i), 0<=j<=M-1, 0<=i<=N-1
#output = trinary image g(j,i), 0<=j<=M-1, 0<=i<=N-1 # 0,1,2
# h is normalized histogram
for t_1 in range(1, L-2):
for t_2 in range(t1+1, L-1):
# calculate V_between(t1, t2) using (5.2)
...
# T1, T2 is the (t1,t2) that. V_between's maximum value
...
# using (T1,T2) , f trinary to g
...
적응적 임계화(Adaptive Thresholding)
- 하나 또는 두 개의 임계값을 영상 전체에 적용하는 전역 방법의 한계(이진화에 해당)
- 기존 알고리즘은 지역적으로 명암 분포가 다른 경우 낮은 분할 품질 보이는 문제가 있음
- 이를 적응적 임계화로 해결 가능
- 지역에 따라 적응적으로 임계값을 결정한다
- t(i,j)를 결정하는 방법
2.2 군집화를 이용한 영역 분할
군집화(Clustering)
- 화소를 RGB 3차원 컬러 공간으로 매핑한 후, K-means로 군집화
- Clustering vs. Classification
- Clustering : 비지도학습(Unsupervised Learning)
- Classification: 지도학습(Supervised Learning)
- K-means를 이용한 컬러 영상 분할
- (1) 초기지점 설정
- k=2인 경우 두 개의 init point가 설정됨
- init point는 랜덤 설정
- 그러나, 무작위 설정인 경우 최적점을 찾기 위해 많은 for문을 돌아야 할 수 있음 -> 시간복잡도 증가
- 따라서 계산의 효율성을 위해 data의 분포를 보고 적절히 가장 min, max 지점으로 설정해 줌
- (2) 두 init point에 가까운 쪽으로 데이터들의 소속을 정해줌
- (3) 같은 영역에 소속된 데이터들의 무게중심을 구해 init point로 해당 점을 설정
- (5) (2)~(3)을 반복하여 무게중심이 더 이상 바뀌지 않을 때가지 반복
- K-means 방법은 자연 영상에서 아래와 같이 낮은 성능을 보인다
- 따라서 다음 게시글에서 진보한 군집화 알고리즘인 민시프트(Mean-Shift)를 알아보도록 하자
<3. 민시프트~> 부터는 다음 게시글에서 계속....
https://codingsmu.tistory.com/118
반응형
'인공지능(AI) > 컴퓨터비전(CV)' 카테고리의 다른 글
[패턴인식] 특징 기술(1): 특징 기술자, 영역 기술자 (0) | 2021.12.17 |
---|---|
[패턴인식] 영상분할(2): 민시프트, 대화식 물체 분할 (0) | 2021.12.16 |
[패턴인식] 지역 특징 검출(2): 스케일에 불변한 특징점 검출 (0) | 2021.12.15 |
[패턴인식] 지역 특징 검출(1): 이동/회전 불변 특징점 검출, 위치 찾기 알고리즘 (0) | 2021.10.24 |
[패턴인식] 에지 검출(2) : 캐니 에지, 컬러 에지, 선분 검출 (0) | 2021.10.24 |