1. Lecture 02: Color & Color Spaces

1.1. Color는 물리량이 아닌 지각적(perceptual) 속성이다

색(Color)이란 빛의 반사/방출된 특성에 따른 눈의 반응이다.

우리가 일반적으로 사용하는 Red, Blue 같은 용어는 정성적인 표현이며, 사람의 3개의 원뿔세포(Cone Cell (S-B, M-G, L-R))이 반응하는 결과로 발생하는 결과가 색이다.

인간의 눈에는 색을 인지하는 원뿔세포 이외에도 막대세포가 존재하여 빛의 강도 즉, 밝기를 인식한다

구분	Cone Cell (원뿔세포)	Rod Cell (막대세포)
위치	망막의 중심(특히 황반 fovea)에 집중	망막 주변부(peripheral)에 많음
기능	색 인식 (Color Vision)	밝기 감지 (Light Intensity)
작동 조건	밝은 빛 (photopic vision)	어두운 빛 (scotopic vision)
민감도	3가지 타입 각각 색 파장에 특화	밝기만 감지, 색 구분 불가
수	약 600만 개	약 1억 2천만 개
민감도	낮음 (강한 빛 필요)	매우 높음 (어두운 빛에도 반응)
연결	높은 해상도 (1:1 연결 → 높은 공간분해능)	낮은 해상도 (여러 개가 하나의 세포로 연결됨)

1.2. Spectral Power Distribution (SPD, 스펙트럼 강도 분포)

어떤 광원이 특정 파장의 빛을 얼마나 많이 내는지를 나타내는 함수 또는 그래프를 SPD라 한다.

이러한 SPD가 주어졌을 때 다음의 식으로 우리 눈의 원뿔세포(S, M, L)의 반응도를 계산할 수 있다.

R_{L} = \int_{λ} I (λ) \cdot \overset{ˉ}{l} (λ) d λ

R_{M} = \int_{λ} I (λ) \cdot \overset{m}{ˉ} (λ) d λ

R_{S} = \int_{λ} I (λ) \cdot \overset{s}{ˉ} (λ) d λ

이러한 SPD는 색상에 대해 일대일 대응되지 않는다.

즉, 서로 다른 SPD가 인간의 인지 과정에서 같은 색으로 대응될 수 있다!

1.3. Tristimulus Theory (삼자극 이론)

Tristimulus Theory (삼자극 이론)

인간의 시각 시스템이 세 가지 종류의 색(빨강, 초록, 파랑) 자극을 통해 색을 인식한다

Grassmann’s Law (그라스만의 법칙)

색자극의 혼합에서 동일한 색을 설명하는 경험적인 세 가지 법칙.

동일한 색을 규정하려면 독립된 세 가지 변수가 필요충분조건이다.

색자극의 혼합에서는 오직 삼자극값과 관련이 있으며 분광 성분과 관련되는 것은 아니다.

색자극 혼합에서 한 개 또는 그 이상의 성분이 서서히 변화되면 삼자극값도 서서히 변하게 된다.

1.4. Colorimetry (비색측정)

우리는 이제 SPD에 대한 인간의 인지상의 색의 정량적으로 정리할 필요가 있다.

하지만 SPD에 대한 인간의 색 반응은 뜯어볼 수 없는 블랙박스였기에 결국 직접 사람을 연구함으로써 이루어질 수 밖에 없다.

1.4.1. Photomic Luminosity Function ( $V (λ)$ , 밝기감도함수)

Flicker Photometry (섬광 융합 실험)

고정된 광도의 광원 A를 준비한다. (파장은 무관, 백색광을 주로 사용함)

광도를 조절할 수 있으며 파장은 고정된 광원 B를 준비한다.

A와 B를 17Hz로 번갈아 실험자의 눈에 비춘다.

피실험자는 이 광원 A와 B를 동일한 밝기로 인식될 때까지 광원 B의 광도를 조정한다.

A와 광원 B를 동일한 밝기로 인지할 때의 광원 B의 광도를 측정한다.

이 과정을 전 파장에 대해 반복하며 밝기감도함수 $V (λ)$ 를 작성한다.

1.4.2. Color Matching Functions (CMFs, 색일치함수) - CIE RGB 색공간

중앙의 격판을 기준으로 양옆 1도씩 볼수 있도록 암실을 구성한다.
격판을 기준으로 왼쪽에는 고정된 광도, 고정된 파장의 광원 A를 준비한다.
격판을 기준으로 오른쪽에는 각각 광도를 조절할 수 있는 R, G, B의 광원 3개를 준비한다. (R: 700nm, G: 546.1nm, B: 435.8nm)
피실험자는 두 시야의 색이 일치될 때까지 RGB광원의 광도를 조절한다.
이 과정을 전 파장에 대해 반복하여 측정한다.

이 실험에서는 특정 파장 (e.g. 530nm 근처)에서 R, G, B만으로 두 시야의 색을 절대 맞출 수 없는 문제가 발견되었다. 이 때에는 RGB 광원 중 하나를 반대편 광원 A에 조사하고, 옮긴 광원의 광도값을 음수로 기록하였다.

이렇듯 CIE RGB에는 일부 값이 음수가 되는 구간이 생겨 실제 디스플레이 기기에서 구현하기 힘들고 직관적이지 않으며 device-independent 하지 않는 등의 문제가 있었다.

1.4.3. CIE XYZ 색공간

CIE RGB 색공간의 문제점을 해결하기 위해 나온 색공간으로 $X, Y, Z$ 라는 가상의 primary 색공간을 사용하였다. $X, Y, Z$ 모두 양수이며 이중 == $Y$ 는 밝기감도함수 $V (λ)$ 와 일치==하고 $X, Z$ 는 나머지 색정보를 수용하고 있다. $X, Y, Z \to R, G, B$ 행렬은 다음과 같다.

X Y Z = 0.490 0.177 0.000 0.310 0.812 0.010 0.200 0.011 0.990 R G B

이러한 CIE XYZ 색공간은 device-independent 했기에, 적어도 이론적으로는 각 기기들은 자신들의 색공간과 CIE XYZ 색공간을 매핑하는 방식으로 기기 간 색공간을 매칭할 수 있었다.

특히 이 중 $Y$ 성분은 의도적으로 밝기감도함수 $V (λ)$ 와 일치하도록 정의되었기에, 별도의 휘도 계산이 필요없는 편리함을 가져갈 수 있었다. 또한 이렇게 의도적으로 매핑되었음에도 결과적으로 $R, G, B$ 에 선형 변환을 가한 형태이기에 이렇게 변형된 공간도 인간의 인지적인 $R, G, B$ 의 공간 특성을 망가트리지 않고 반영할 수 있었다.

1.4.4. CIE xyY 색공간

때때로 색을 표현할 때 휘도(Luminance)와 색도(Chromaticity)를 분리하는 방법이 효과적일 때가 많다. 여기서 색도는 Hue와 Saturation을 통합하는 척도로 $x, y$ 로 표현되고 휘도는 $Y$ 로 표현된다.

x = \frac{X}{X + Y + Z}, y = \frac{Y}{X + Y + Z}, Y = Y

여기서 $x, y, z$ 는 $(X, Y, Z)$ 좌표를 $X + Y + Z = 1$ 으로 정사영 시킨 벡터이고 이는 평면 위에 있으므로 $z = 1 - x - y$ 로 생략할 수 있다. 또한 $X, Y, Z$ 를 되돌리는 키가 되면서도 밝기 정보로 빠져있는 $Y$ 는 정규화되지 않은 값으로 포함시켰다.

CIE xyY 색공간은 하나의 축을 휘도로써 색도와 완전히 분리하여 해석과 구현을 쉽게 하였다.

1.4.5. CIE 색공간의 한계

CIE 색공간은 현재 전세계 표준으로 쓰이고 있다. 이 실험은 “표준의 관측자”에 의해 진행되었는데… 이러한 “Standard Observer”의 기준은 무엇일까? 100명의 전세계 사람? 아니면 1000명, 10000명?

CIE 색공간을 정의할 때 실험에 참여한 “표준 관측자”는 17명의 영국 남성이었다. 이외에도 중심시야각을 2도로 설정해 주변 시야각에 대한 색 측정이 이루어지지 않은 점 등이 한계점으로 남아있다. (중심시야각의 경우 CIE 1964 때 중심시야각 10도 기준으로 심화 측정이 이루어졌다)

1.5. Color Constancy (색 일관성) & Color Temperature (색 온도)

실제 사람이 색을 인식할 때 관측하는 물체의 SPD는 주변광의 영향을 크게 받는다.

하지만 이렇게 물체에 반사되는 빛의 SPD가 바뀌어도 사람의 눈은 주위 주변광에 맞춰 적절한 보상 알고리즘을 통해 물체의 색을 일정하게 인식할 수 있다.

이렇게 사람의 인식 시스템이 주변 환경에 맞춰 적응하는 능력을 Color Constancy 혹은 Chromatic Adaptation이라 한다. 이는 완벽하지는 않더라도 굉장히 잘 작동하며 기계의 이미지 센서의 경우 이러한 능력이 없어 이를 보정하는 프로세스를 거쳐야 한다. (화이트밸런스 조정 등)

(우리는 사진 속의 조명에는 적응하지 않는다. 사진을 보고 있는 현 상황의 주변 시야에 적응하는 것이다. 때문에 사진에서 색에 편향이 일어나는 경우 이를 이질적으로 인식한다.)

1.6. Von Kries Transform

이러한 주변광은 대체적으로 Color Temperature (색 온도)라는 단어로 표현된다.

이는 이론적인 흑체복사와도 관련이 있으며 이를 기반으로 SPD를 생성한다.

이를 컴퓨터비젼에서 정규화하기 위한 변환 중 하나로 Von Kries Transform이 있다.

이는 다음의 공식으로 각 원뿔세포에 대한 반응을 해당 화이트포인트에서의 반응으로 나누어 정규화한다.

L_{2} M_{2} S_{2} = 1/ L_{1}^{w} 00 0 1/ M_{1}^{w} 0 00 1/ S_{1}^{w} L_{1} M_{1} S_{1}

1.7. Standard RGB (sRGB)

이제까지 우리는 “잘 구성된” 실험실에서 색을 정규화히기 위한 다양한 색공간을 알아보았다.

하지만 현실세계의 디바이스는 RGB값을 이용해 색을 표현한다. 각 디바이스는 물리적 한계로 서로 다른 RGB 특성을 가지기에 더이상 real-primary 하지 않다.

이렇게 기기마다 다른 primaries-RGB를 조합하면 CIE-XYZ 색공간의 부분공간을 형성(span)한다. 이는 x-y 다이어그램에서 primary RGB를 찍어 생기는 삼각형을 내부 공간으로 도식되고 이를 Color Gamut이라 한다.

문제는 이러한 Color Gamut이 디바이스마다 다르다는 것. 특정 디바이스의 색 (RGB) 정보가 다른 디바이스로 넘어갈 때 색상보존에 문제가 생긴다면 CIE 색공간의 표준화는 의미가 없어진다.

이에 HP와 Microsoft가 공동으로 1996년에 제시한 색공간이 Standard RGB, sRGB 이다.

기기 간 색 표현의 일관성을 보장하기 위해 고안되어, 서로 다른기기에서도 같은 RGB에 대해 같은 출력을 내도록 하는 규약이다.

색	x	y
Red	0.6400	0.3300
Green	0.3000	0.6000
Blue	0.1500	0.0600
White Point (D65)	0.3127	0.3290

여기서 눈여겨 볼 것은 기준 화이트포인트가 D65, 약 6500K으로 맞추어져 있는것인데 이 말인 즉, sRGB는 6500K 의 조명에서 보는 것을 기준으로 책정되었다는 것이다. 주변광이 이 화이트포인트에서 틀어질 경우 색 구현에 문제가 생긴다.

감마를 보정하지 않은 선형 $X Y Z \to s RGB$ 의 공식은 다음과 같다.

R_{l in e a r} G_{l in e a r} B_{l in e a r} = 3.2404542 - 0.9692660 0.0556434 - 1.5371385 1.8760108 - 0.2040259 - 0.4985314 0.0415560 1.0572252 \cdot X Y Z

이 공식에서 $R = G = B = 1$ 일 때가 CIE XYZ 색공간에서 D65 색포인트의 위치를 가리킨다.

또한 이 공식을 그대로 적용하면 $R, G, B$ 값이 음수가 나올 수 있어 clamp가 필요하다.

1.8. Gamma Curve (감마 곡선)

사람의 눈은 밝기에 선형적으로 반응하지 않는데, 어두운 밝기의 변화에는 민감하며, 밝은 밝기의 변화에는 둔감하다.

지금까지의 공식은 전기적 입력신호의 강도에 선형적으로 비례해 사람이 밝기를 인식한다고 가정했을 때의 공식이다. 이를 실제 입력신호-인식밝기에 비선형적으로 매핑시키는 값이 Gamma Curve (감마 곡선)이다.

I^{'} = I^{\frac{1}{γ}}

특히 sRGB가 제안될 당시의 표준 모니터인 CRT 디스플레이는 대표적인 비선형 응답 디스플레이였는데, 입력 전압과 출력 신호 사이에도 비선형 관계가 성립해 2중으로 보정을 해야했다.

이때 sRGB에서 제시한 적절한 감마값이 $γ = 2.2$ 였다.

sRGB는 지금까지도 다양한 디스플레이에서 표준으로 쓰이지만, 지금의 LCD, OLED 등의 디스플레이는 입력 전압과 출력 신호는 대부분 선형 관계를 띤다. 이는 곧 디스플레이마다 감마값이 다름을 의미한다. 하지만 이미 sRGB가 JPEG, PNG, HTML 등 다양한 곳에서 색상 표준으로 쓰이기에 현재 디스플레이들은 자신의 $γ$ 값에 관계없이 대부분 $γ = 2.2$ 를 에뮬레이션하여 표현한다.

2. Lecture 03: Image Filtering

2.1. Type of Image Transformations (이미지 변형의 종류)

이미지: 숫자로 이루어진 3차원 텐서

컬러 이미지는 채널마다 2차원의 숫자 배열을 가지며 일반적으로 각 숫자는 8bit (0~255)로 표현된다.

그레이스케일 이미지의 경우 일종의 2차원 함수로 간주할 수 있다.

이러한 이미지에 우리는 다음과 같은 Transform을 가할 수 있다.

이 중 Filtering은 다음과 같이 각 픽셀이 독립적으로 계산되는 Point-Processing과 일정 영역의 픽셀들이 영향을 주고받는 Filtering으로 나뉜다.

2.2. Spatial Domain

Spatial Domain이란 픽셀의 위치와 해당 픽셀의 밝기 값을 직접적으로 다루는 연산 공간을 의미한다.

어떠한 픽셀의 $x, y$ 값과 강도 $I$ 를 이용해 연산하는 방식이다.

g (x, y) = T [f (x, y))]

의 형식을 가지며 이때 $f$ 는 입력 이미지, $g$ 는 출력 이미지, $T$ 는 $f (x, y)$ 를 통해 정의되는 이웃들과의 관계식으로 가해지는 연산자이다.

이러한 Spatial Domain의 연산자 관계식에서 $r, s$ 는 통상적으로 $T$ 에 의해 출력되는 $f (x, y)$ , $g (x, y)$ 의 그레이레벨( $I$ )로 정의된다.

s = T (r)

2.3. Image Histogram

이미지의 gray-level domain에 속하는 $r_{k}$ 에 대해 이미지 전체에서 해당 $r_{k}$ 의 등장 확률을 도식한 그래프를 Image Histogram이라 한다. 이는 그레이레벨의 분포를 보여준다.

2.4. Point Processing

Spatial Domain에서 작동하는 필터링 중에서도 특이적으로 window_size = 1x1인 neighborhood가 자신 뿐인 연산을 Point Proessing이라 한다.

이는 주변 픽셀과의 관계를 따지지 않고 일괄적으로 모든 픽셀에 자기 자신의 $I$ 만을 통한 연산을 하는 방식이다.

위처럼 Point-Processing에는 다양한 종류가 존재한다.

이러한 Point-Processing은 Image Histogram을 연산하는 것과 비슷하다.

(일반적으로 말하는 curve 보정과 같다)

이때, $T (r)$ 이 역함수가 존재하고 단조증가하여 gray-level 순서가 보존된다면 이를 Monotonic 하다고 한다. 이러한 변형 $T (r)$ 은 이미지에 적용되어도 인간이 보기에 비교적 자연스러운 변형이 일어난다.

반대로 역함수가 존재하지 않고 gray-level의 순서가 보존되지 않으면 이를 Non-Monotonic하다고 하며, 이미지에 적용되었을 때 인간이 보기에 이질적으로 느껴진다.

2.5. Linear Shift-Invariant Filtering (선형 이동 불변 필터링)

어떤 픽셀 $r = f (x, y)$ 에 대해 $T (r)$ 이 $(x, y)$ 와 그 주변픽셀과의 선형결합 형태를 띠면 이를 Linear Shift-Invariant Filtering 이라 한다.

이러한 선형 결합은 필터의 Kernel에 의해 결정되며 이러한 Kernel은 shift를 통해 이미지 전체를 순회하며 모든 픽셀의 연산에 재활용된다.

2.6. Convolution (컨볼루션)

이미지의 Spatial Domain에 속하는 모든 픽셀에 대해 같은 커널(kernel)을 적용하며, 선형성(linearity)과 시프트 불변성(shift-invariance)을 만족하는 필터링 연산을 Convolution이라 한다.

2.6.1. Convolution on Continuous Signals

1차원 연속 신호 $f (x)$ 에 대한 필터 $g$ 의 컨볼루션은 다음과 같이 정의된다.

(f * g) (x) = \int_{- \infty}^{\infty} f (y) g (x - y) d y

여기서 적분 안의 $y$ 는 신호 $g (x)$ 의 정의역과 같은데, 적분 안에서 필터링하고자 하는 신호 $g$ 가 뒤집힌 상태로 곱해지는 것을 주의해야한다.

마찬가지로 2차원 연속 신호 $f (x, y)$ 에 대한 필터 $g$ 의 컨볼루션은 다음과 같이 정의된다.

(f * g) (x) = \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} f (x, y) g (x - t, y - h) d t d h

2.6.2. Convolution on Discrete Signals

이산 신호에 대한 컨볼루션은 연속 신호의 컨볼루션을 부분합으로 분해한다고 생각하면 된다.

(사실 반대로 생각하는게 더 편하다)

g (x) = i = - \infty \sum \infty f (x - i) \cdot h (i)

g (x, y) = i = - \infty \sum \infty j = - \infty \sum \infty f (x - i, y - j) \cdot h (i, j)

이때 각각은 이미지 필터링에서 다음과 같이 매핑된다.

$f (x, y)$ : 입력 이미지
$h (i, j)$ : 필터 커널
$g (x, y)$ : 출력 이미지

2.6.3. Convolution vs Correlation

Convolution은 커널에 해당하는 필터를 신호에 곱할 때 이를 도메인에 대해 뒤집어 연산했다.

이와 반대로 도메인을 뒤집지 않고 그대로 원신호에 곱하는 연산을 Correlation이라 한다.

g (x, y) = i = - \infty \sum \infty j = - \infty \sum \infty f (x + i, y + j) \cdot h (i, j

이미지 처리에서는 대부분 symmetric한 필터를 사용하기 때문에 Correlation과 Convolution의 결과가 같고, 따라서 연산의 편의성을 위해 Correlation을 사용하면서 Convolution이라 칭하는 경우가 많다.

2.7. Separable Filter

몇몇 필터는 각 차원으로 분리된 1D 필터의 곱으로 나타내어질 수 있다.

111111111 = 111 * [111]

위의 Box filter의 커널 Separable Filter로 $r ank$ 가 1로써 하나 이상의 차원의 선형결합으로 구성된다.

Separable Filter는 컨볼루션 연산에 장점을 가지는데 $M \times M$ 사이즈의 이미지에 $N \times N$ 의 커널을 컨볼루션할 때 연산 횟수는

Separable Filter가 아닐 때 : $M^{2} \times N^{2}$ 번
Separable Filter일 때: $M^{2} \times N \times 2$ 번

과 같이 Separable Filter에서 더 적은 연산횟수로 컨볼루션 할 수 있다.

2.8. Filtering Examples

2.8.1. Box Filter (평균 필터)

간단한 스무딩 효과를 적용하는 필터로 모든 커널 값이 동일하다

\frac{1}{9} 111111111

2.8.2. Gaussian Filter (가우시안 필터)

중심에서 멀어질수록 가중치가 감소하는 가우시안 분포를 커널로 사용하는 필터로 Box Filter보다 선명함 손실을 최소화하며 부드럽게 만드는 Blur 처리가 가능하다.

아래는 $σ = 2$ 로 가정하여 Discrete하게 만든 $3 \times 3$ 커널이다.

\frac{1}{16} 121242121

2.8.3. Sharpening Filter (선명함 필터)

날카로운 부분을 강조하는 필터로 커널의 중앙값을 더욱 강하게 만든다.

000020000 - \frac{1}{9} 111111111

과적용하면 다음과 같은 문제가 생길 수 있어 조심히 써야한다

문제	원인	결과
노이즈 강조	고주파 강화 → 노이즈도 강조됨	배경 거칠어짐
Ringing artifact	엣지 주변에 고주파 진동	테두리 주변 울렁거림
False edges	엣지 과장	가짜 윤곽 생김
Haloing	강한 대비 유도	물체 주변에 후광처럼 빛번짐
Clipping	픽셀값 범위 초과	정보 손실, 왜곡

2.9. Image Gradient (이미지 기울기)

컬러이미지의 한 채널 또는 그레이스케일의 $I$ 는 일종의 2차원 함수와 같다고 설명했다.

그렇기에 이러한 함수는 미분을 통해 도함수를 구할 수 있으며, 경계 주변에서 이미지 픽셀값 $I$ 가 급변하는 특징을 이용해 $I$ 의 미분 $\frac{\partial ^{2} I}{\partial x \partial y}$ 으로 이미지 경계를 검출할 수 있다.

이때, 이미지의 픽셀값은 실제로 이산(Discrete)이므로 유한차분을 통해 커널을 구할 수 있다. 다음은 $3 \times 3$ 커널의 예제이다.

f^{'} (x) = h \to 0 lim \frac{f ( x + h ) - f ( x )}{h}

f^{'} (x) = h \to 0 lim \frac{f ( x + 0.5 h ) - f ( x - 0.5 h )}{h}

f^{'} (x) = \frac{f ( x + 1 ) - f ( x - 1 )}{2} ⟹ [10 - 1]

또한 이렇게 검출한 미분값을 통해 해당 커널 내에서의 엣지 정도 (Magnitude)와 그 방향 (Direction)을 구할 수 있다.

Magnitude: M = (\frac{\partial I}{\partial x})^{2} + (\frac{\partial I}{\partial y})^{2}

Direction: θ = tan^{- 1} (\frac{\partial I}{\partial y} / \frac{\partial I}{\partial x})

2.9.1. Sobel Filter (소벨 필터)

이미지의 경계(edge) 를 찾기 위한 미분 필터로 Sobel-X, Sobel-Y로 나누어 사용된다.

각각의 커널은 다음과 같다

Sobel-X = 121000 - 1 - 2 - 1, Sobel-Y = 10 - 1 20 - 2 10 - 1

원하는 방향으로는 미분 커널을, 반대 방향으로는 가우시안 커널을 적용하여 주축 방향의 경계를 강조하는 방식이다.

2.9.2. Several Derivative Filters

Scharr (샤를): Sobel 필터에서 중심축:주변축 비율을 높여 회전 불변성을 높임
Prewitt (프리윗): Sobel 필터에서 반대 방향 가우시안 성분을 제거, 대각선 엣지 검출에 약함
Roberts (로버츠): 대각선 방향의 엣지 검출에 강하지만, 노이즈에 민감함

2.10. DoG Filter (Derivative of Gaussian Filter)

이러한 미분 함수의 형태를 띠는 필터는 데이터의 노이즈에 의해 미분 값의 변동성이 심해 추출된 엣지의 오차가 심했다.

따라서 가우시안 필터를 적용하여 노이즈를 줄인 후 미분하는 DoG 필터가 등장했다.

또한 이미지 컨볼루션 연산의 특성 상 다음과 같이 미분과정을 이미지 밖으로 빼내어 가우시안 필터의 미분 커널을 미리 계산해놓을 수 있어 커널을 두번 적용할 필요가 없기에 속도 측면에서도 이점이 있었다.

\nabla (f * h) = \nabla f * h

2.11. Second-Derivative Filters (Laplacian Filter)

1차 미분 필터는 엣지의 방향을 알기엔 좋았지만, 정확한 엣지의 위치나 중심을 아는데 어려움이 있었다.

따라서 2차 미분을 기반으로 이계도함수 $f^{''} (x, y)$ 의 값이 0을 지나는 Zero-Crossing 지점을 찾아 엣지를 검출하려는 2계 미분 필터인 Laplacian 필터가 등장했다.

이 필터 또한 이계도함수의 유한차분을 통해 위처럼 이산 커널로 만들 수 있다.

하지만 라플라시안 필터는 이미지의 노이즈에 매우 취약하다는 문제점이 있었다.

1차 미분 필터보다 2차 미분 필터가 노이즈에 더 취약하다!

미분 과정은 수학적으로 노이즈를 더 증폭시킨다.

추후 배울 Fourier Domain에서 보면

연산 주파수 응답
1차 미분 $jω$ (선형 증가)
2차 미분 $- ω^{2}$ (제곱 증가)

이처럼 1차 미분 필터보다 더 빠르게 노이즈를 확대시키는 특성이 있다. 이외에도 소벨 필터를 보면, 중심축의 엣지 방향성을 유지하면서도 주변 픽셀에 대해 적절한 가우시안 스무딩 효과를 가지기에 노이즈에 강한데, 라플라시안은 노이즈에 대해 스무딩 전략이 부족했다. (로버츠 필터가 노이즈에 약한 이유도 마찬가지이다)

연산	주파수 응답
1차 미분	$jω$ (선형 증가)
2차 미분	$- ω^{2}$ (제곱 증가)

2.12. LoG (Laplacian of Gaussian Filter)

라플라시안 필터의 문제를 해결하기 위해 1차 미분 필터에서와 마찬가지로 이미지 전체에 가우시안 필터를 적용한 후 이를 이계미분하는 LoG필터가 등장했다. 이 또한 가우시안 커널을 이계미분한 커널을 미리 계산하여 적용하는 방식으로 진행되었다.

3. Lecture 04: Frequency-Domain Image Analysis

3.1. Sampling (샘플링)

이미지는 연속된 세계 (Continuous World)에서 이산적으로(Discrete), 샘플링되어진(Sample) 데이터이다. 이처럼 연속적인 신호(continuous signal)를 이산적인 신호(discrete signal)로 변환하는 과정을 Sampling이라 하고, 이는 연속적인 현실 세계를 0과 1의 이진 세계인 컴퓨터에서 표현하기 위해 필수적이다.

다음은 정현파 중 하나인 Sine파를 임의의 주파수로 샘플링하는 과정을 보여준다.

그렇다면 우리는 어떤 주파수(주기)로 데이터를 샘플링해야 할까?

3.1.1. Under Sampling & Aliasing

위 그림은 정현파를 샘플링할 때 너무 낮은 주파수의 샘플링으로 인해 중간의 그래프에서 기존 정현파의 주파수 정보가 손실된 모습을 보여준다. 이처럼 실제 데이터를 표현하기에 적절하지 않은 낮은 주파수로 샘플링하는 것을 Under Sampling이라 한다.

또한 이는 위에서 보듯이 원래의 신호를 손실시킬 뿐 아니라 왜곡된 (위 신호에서 실제 주파수가 아닌 다른 주파수의 신호가 형성되는 모습) 신호로 변질시킨다. 물론 가장 아래의 그래프처럼 더 높은 주파수로 오인할 수도 있다.

이중에서도 두번째 경우처럼 언더샘플링으로 인해 기존의 신호가 더 작은 주파수의 성분으로 변질되는 현상을 Aliasing이라 한다. 우리가 현실 혹은 이미지에서 자주 보이는 무아레 패턴(Moiré Pattern)은 에일리어싱의 대표적인 예시다.

3.1.2. Down Sampling

이처럼 Under Sampling은 Aliasing 현상을 동반할 수 있어 신호처리에 적합하지 못한 경우가 많다.

하지만 현실은 (거의) 완벽한 연속 신호이며, 우리가 이산신호로 샘플링하는 과정은 자원 상의 한계로 Under Sampling이 될 수밖에 없다. 샘플링 주파수를 무작정 높이면 데이터의 크기는 그만큼 커지고, 이를 프로세싱하는 연산과정도 오래 걸리게 된다.

이미지의 크기를 줄이는 과정도 일종의 Down Sampling이다. 이는 원래의 데이터 (신호)를 일부 잃어버리는 대신, 프로세싱에 쓰이는 연산량을 줄이고 데이터 크기를 줄일 수 있다. 아래는 이미지 행렬 데이터에서 단순히 짝수 행/열을 제거하는 방식으로 이미지를 다운샘플링 한다.

3.1.3. Anti-Aliasing

이렇듯 여러 가지 이유로 우리는 강제적, 의도적으로 데이터를 Down Sampling 할 필요가 생기고, 이 과정에서 Aliasing을 방지하는 Anti-Aliasing을 위한 방도를 찾아야 한다.

아래에서는 Smoothing 과정을 통해 Anti-Aliasing을 달성한다. (언더샘플링된 신호에 Smoothing을 적용하면 대부분 Anti-Aliasing 효과를 달성할 수 있다.)

이처럼 Anti-Aliasing을 위해서는 원래의 데이터에서

샘플링된 신호에 얼마나 Smoothing 해야 하는가?
얼마나 많은 샘플을 취해야 하는가? (Sampling rate) 에 대한 답을 필요로 하며, Nyquist Limit으로 이들에 대한 답을 모두 찾을 수 있다.

3.2. Fourier Series

수학자 푸리에는 1807년 다음과 같은 이론을 제시한다.

Any univariate function can be rewritten as a weighted sum of sines and cosines of different frequencies.

단변량 함수 $f$ 가 사인파와 코사인파의 선형합성으로 구성 및 분해가능하다는 것은 어떠한 매우 복잡한 신호도 단순한 패턴의 조합으로 설명 가능하다는 뜻이다.

푸리에 정리는 이때까지 Spatial Domain으로만 해석되었던 신호를 Frequency Domain으로도 해석하는 기초가 되었고, 다양한 신호처리의 핵심이 된다.

NOTE

$A sin (ω x + ϕ) = Re (A e^{j (ω x + ϕ)})$ $A cos (ω x + ϕ) = Im (A e^{j (ω x + ϕ)})$

3.3. Frequency Domain

신호나 이미지가 공간(x,y) 또는 시간(t) 좌표 대신, 주파수(frequency) 성분으로 표현된 세계를 Frequency Domain이라 한다.

위 함수에 대한 Frequency Domain에서의 Frequency Spectrum은 다음과 같다.

여기서 $k, 3 k$ 는 $f$ 를 구성하는 각 주파수 성분, $am pl i t u d e$ 는 이 주파수 성분의 구성 비를 보여준다. 또한 0일 때의 $am pl i t u d e$ 는 전체 신호의 평균 값을 의미한다.

이를 2차원으로 확장하면 다음과 같이 plot을 찍을 수 있다.

이렇게 푸리에함수를 적용한 FFT 이미지는 Frequency Domain 상에서 Magnitude를 나타낸 이미지와 Phase를 나타낸 이미지로 시각화 가능하다.

Magnitude 이미지는 각 픽셀의 세기가 실제 해당 파동의 합성 계수를 나타내기에 시각적 의미가 있으나, Phase 이미지는 단순히 $- π \sim π$ 를 나타내기에 시각적으로 분석할 수는 없다.

또한, 이미지 인식에서 Magnitude 보다는 Phase의 정보가 더 중요하다.

3.4. Convolution Theorem

Spatial Domain에서의 두 신호의 곱은 Frequency Domain에서 두 신호의 컨볼루션으로 나타나고

F {g \cdot h} = F {g} * F {h}

Spatial Domain에서의 두 신호의 컨볼루션은 Frequency Domain에서 두 신호의 곱으로 나타난다.

F {g * h} = F {g} F {h}

맛있는고슴도치

탐색기

Computer Vision

1. Lecture 02: Color & Color Spaces

1.1. Color는 물리량이 아닌 지각적(perceptual) 속성이다

1.2. Spectral Power Distribution (SPD, 스펙트럼 강도 분포)

1.3. Tristimulus Theory (삼자극 이론)

1.4. Colorimetry (비색측정)

1.4.1. Photomic Luminosity Function (V(λ), 밝기감도함수)

1.4.2. Color Matching Functions (CMFs, 색일치함수) - CIE RGB 색공간

1.4.3. CIE XYZ 색공간

1.4.4. CIE xyY 색공간

1.4.5. CIE 색공간의 한계

1.5. Color Constancy (색 일관성) & Color Temperature (색 온도)

1.6. Von Kries Transform

1.7. Standard RGB (sRGB)

1.8. Gamma Curve (감마 곡선)

2. Lecture 03: Image Filtering

2.1. Type of Image Transformations (이미지 변형의 종류)

2.2. Spatial Domain

2.3. Image Histogram

2.4. Point Processing

2.5. Linear Shift-Invariant Filtering (선형 이동 불변 필터링)

2.6. Convolution (컨볼루션)

2.6.1. Convolution on Continuous Signals

2.6.2. Convolution on Discrete Signals

2.6.3. Convolution vs Correlation

2.7. Separable Filter

2.8. Filtering Examples

2.8.1. Box Filter (평균 필터)

2.8.2. Gaussian Filter (가우시안 필터)

2.8.3. Sharpening Filter (선명함 필터)

2.9. Image Gradient (이미지 기울기)

2.9.1. Sobel Filter (소벨 필터)

2.9.2. Several Derivative Filters

2.10. DoG Filter (Derivative of Gaussian Filter)

2.11. Second-Derivative Filters (Laplacian Filter)

2.12. LoG (Laplacian of Gaussian Filter)

3. Lecture 04: Frequency-Domain Image Analysis

3.1. Sampling (샘플링)

3.1.1. Under Sampling & Aliasing

3.1.2. Down Sampling

3.1.3. Anti-Aliasing

3.2. Fourier Series

3.3. Frequency Domain

3.4. Convolution Theorem

그래프 뷰

목차

1.4.1. Photomic Luminosity Function ( $V (λ)$ , 밝기감도함수)