ํน์ง ์ถ์ถ์ ๋ชฉ์
- ๋ถ์์ ๋ถํ์ํ ์ ๋ณด๋ ์ ๊ฑฐํ๊ณ ํ์ํ ํต์ฌ ์ ๋ณด๋ง ์ถ์ถ
- ์ฐจ์ ์ถ์๋ฅผ ํตํด ํ์ต ์์คํ ์ ํจ์จ์ ํฅ์์ํด
Dimension Reduction ์ฐจ์ ์ถ์
- ๋ฐ์ดํฐ ๋ถ์์ ํต์ฌ์ด ๋๋ ์ ๋ณด๋ง ๋จ๊ธฐ๊ธฐ ์ํด ์ฐจ์์ ์ถ์ํจ
- ์ฐจ์ ์ถ์๋ฅผ ํตํด ํ์ต ์์คํ ์ ์๋ + ์ฑ๋ฅ ํจ์จ์ ํฅ์์ํด
- ๋ชจ๋ธ ํ์ต์ ๋ถํ์ํ ํผ์ฒ(์๋ ํฅ์)๋ ๋ฐฉํด๋๋ ํผ์ฒ(์ฑ๋ฅ ํฅ์)๋ฅผ ์ ๊ฑฐ
- ๋ฐฉํด๋๋ ํผ์ฒ๋ over fitting ๋ฌธ์ ๋ฅผ ๋ฐ์์ํค๋ ํผ์ฒ
- ์ด์ ์ ๋ ฅ์ฐจ์์ด ๋์ด๋จ์ ๋ฐ๋ผ ์ฒ๋ฆฌ์ ์ ํ๋๊ฐ ์ ํ๋๋ ์ฐจ์์ ์ ์ฃผ ํ์์ด ๋ฐ์
PCA (Principal Component Analysis) ์ฃผ์ฑ๋ถ๋ถ์ ์๊ณ ๋ฆฌ์ฆ
์ฃผ์ฑ๋ถ ๋ถ์ PCA
- ์ ์ฒด ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ๊ฐ์ฅ ์ ์ค๋ช ํ ์ ์๋ ์ฃผ์ฑ๋ถ์ ์ฐพ๋ ๋ฐฉ๋ฒ๋ก
- ๋ฐ์ดํฐ๊ฐ ๊ฐ์ฅ ๋๊ฒ ๋จ์ด์ ธ์๋ ๋ฐฉํฅ์ ์ฐพ๋ ๊ฒ
- ์ฃผ์ฑ๋ถ์ด๋ ๊ทธ ๋ฐฉํฅ์ผ๋ก ๋ฐ์ดํฐ๋ค์ ๋ถ์ฐ์ด ๊ฐ์ฅ ํฐ ๋ฐฉํฅ๋ฒกํฐ๋ฅผ ์๋ฏธํจ
- ๋ฐ์ดํฐ๋ฅผ ์ด๋ค ๋ฐฉํฅ์ผ๋ก ํฌ์(projection) ์์ผฐ์๋ ๋ฐฉํฅ ๋ฒกํฐ๊ฐ ํ๊ท ์ผ๋ก๋ถํฐ ๊ฐ์ฅ ๋ง์ด ๋จ์ด์ง ์ ์๋ ๋ฐฉํฅ๋ฒกํฐ๋ฅผ ์ฃผ์ฑ๋ถ์ด๋ผ ํจ
ํฌ์ (=์ฌ์, projection)
ํฌ์(์ฌ์)์ ๊ฐ๋ ์ ์๋ ์ฐ๋ฆฌ๊ฐ ์๊ณ ์๋ ๋จ์ด ์์ฒด์ ๋ป์ฒ๋ผ ๋น์ ๋น์ถ๋ ๊ฒ๊ณผ ๊ด๋ จ์ด ์๋ค.
์ด๋ค ๋ฌผ์ฒด(์ , ์ , ๋ฉด์ด ๋ ์ ์๋ค)์ ๋น์ ๋น์ถ์ด์ ๊ทธ๋ฆผ์๋ฅผ ๋๋ฆฌ์ธ ๋, ๊ทธ ๋ฌผ์ฒด์ ๊ทธ๋ฆผ์๋ฅผ ์๋ original ๋ฌผ์ฒด์ ์ฌ์ projection ์ด๋ผ๊ณ ํ๋ค. ๊ทธ๋์ ํฌ์์ํจ๋ค๋ ๊ฒ์ ์๋ ๋ฌผ์ฒด๋ฅผ ๊ทธ๋ฆผ์์๋ค๊ฐ ์ฎ๊ธฐ๋ ์์ฉ์ด๋ค.
๋ถ์ฐ
๊ฐ ๋ฐ์ดํฐ ์ํ ๊ฐ์์ ๋ฐ์ดํฐ ํ๊ท ๊ฐ์ ๋นผ์ ์ ๊ณฑํ ๊ฐ์ ๋ค ๋ํ ํ ๋ฐ์ดํฐ ์ํ ์ ๋งํผ ๋๋ ๊ฒ์ด๋ค.
์ฃผ์ฑ๋ถ ์ฐพ๋ ๋ฒ
์๋ ๋ฐ์ดํฐ ๋ถํฌ ์ค์์ ์ด๋ค ์์์ ๋ฒกํฐ(๋ฐฉํฅ)๋ฅผ ๊ธ๋๋ค.
์๋ ๋ฐ์ดํฐ๋ฅผ ๊ทธ ๋ฒกํฐ์ ํฌ์์ ์์ผฐ์ ๋, ํฌ์๋ ๋ฐ์ดํฐ๋ค์ด ํ๊ท ์ผ๋ก๋ถํฐ ์ผ๋งํผ ๋จ์ด์ ธ์๋์ง๋ฅผ ๋ํ๋ด๋ ๋ถ์ฐ์ ๊ตฌํ๋ค.
์ฌ๋ฌ๊ฐ์ ๋ฒกํฐ ์ค์์ ๋ฐ์ดํฐ๊ฐ ๊ฐ์ฅ ๋๊ฒ ํผ์ง ์ ์๋ ๋ฐฉํฅ์ ์ฐพ์์ผํ๋ฏ๋ก ๋ถ์ฐ์ด ๊ฐ์ฅ ํฐ ๋ฐฉํฅ ๋ฒกํฐ๋ฅผ ์ฐพ๋๋ค.
์ด๋ ๊ทธ ๋ฐฉํฅ ๋ฒกํฐ๊ฐ ์ฃผ์ฑ๋ถ์ด ๋๊ณ , ์ด ์ฃผ์ฑ๋ถ์ ์ฐพ๋ ํ์๋ฅผ ์ฃผ์ฑ๋ถ ๋ถ์์ด๋ผ๊ณ ํ๋ค.
์ฃผ์ฑ๋ถ ๋ถ์๋ฒ์ ๋ชฉ์
- ๋ฐ์ดํฐ์ ๋ถ์ฐ์ด ๊ฐ์ฅ ํฐ ๋ฐฉํฅ์ผ๋ก ์ ํ๋ณํ์ ์ํํ์ฌ ์ ๋ณด์ ์์ค์ ์ต์ํ
- ๋ถ์ฐ์ด ํฌ๋ค๋ ๊ฑด ๋ฐ์ดํฐ๊ฐ ๊ฐ์ฅ ๋๊ฒ ํผ์ ธ์์ด ๊ตฌ๋ถํ๊ธฐ๊ฐ ์ฌ์ด ๊ฒ
- ์๋ ์ ๋ณด ์์ค์ ์ต์ํํ๊ธฐ ์ํด์๋ ๋ฐ์ดํฐ ์งํฉ์ด ๊ฐ๋ฅํ ๋๊ฒ ํผ์ง ์ ์๋ ๋ฐฉํฅ์ผ๋ก ํฌ์(์ฌ์)์ ์ํํ๋ ๊ฒ์ด ๋ฐ๋์งํจ
- ์ฃผ์ฑ๋ถ ๋ฐฉํฅ๋ฒกํฐ๋ฅผ ์ฐพ์ ๋ฐ์ดํฐ๋ฅผ ํฌ์์์ผ ์ฐจ์์ ํ ๋จ๊ณ ๋ฎ์ถค
์ผ์ชฝ์์ ์ฃผ์ฑ๋ถ์ผ๋ก ์ ๋ฐ๋ ๋ฐฉํฅ๋ฒกํฐ๋ฅผ ์ค๋ฅธ์ชฝ ๊ทธ๋ฆผ์ฒ๋ผ ๊ทธ๋๋ก ์๋ก์ด x์ถ์ผ๋ก ์ฎ๊ธด๋ค. (์ฃผ์ฑ๋ถ์ด ์๋ก์ด x์ถ์ด ๋์ด ํํ๋จ)
์ผ์ชฝ์์๋ 2์ฐจ์์ ๋ฐ์ดํฐ์์ง๋ง, ์ฐพ์ ์ฃผ์ฑ๋ถ์ ๊ธฐ์ค์ผ๋ก ์๋ก์ด ์ถ์ ๋ง๋ค์๋๋ 1์ฐจ์์ ๋ฐ์ดํฐ๊ฐ ๋์ด ์ฐจ์์ด ํ ๋จ๊ณ ๋ฎ์ถฐ์ง๊ฒ๋๋ค.
์ฃผ์ฑ๋ถ ๋ถ์๋ฒ์ ํน์ฑ
- ๋ฐ์ดํฐ ๋ถ์์ ํน๋ณํ ๋ชฉ์ ์ด ์๋ ๊ฒฝ์ฐ์๋ ์ฃผ์ฑ๋ถ๋ถ์ ๋ฐฉ๋ฒ์ด ๊ฐ์ฅ ํฉ๋ฆฌ์ ์ธ ์ฐจ์ ์ถ์ ๋ฐฉ๋ฒ์
- ํด๋์ค ๋ ์ด๋ธ ์ ๋ณด๋ฅผ ํ์ฉํ์ง ์๋ ๋น์ง๋ ํ์ต
์ฃผ์ฑ๋ถ ๋ถ์๋ฒ์ ๋ฌธ์ ์
- ๋น์ง๋ํ์ต
- ํด๋์ค ๋ ์ด๋ธ ์ ๋ณด๋ฅผ ํ์ฉํ์ง ์์ผ๋ฏ๋ก ๋ถ๋ฅ ๋ฌธ์ ์ ์ ํฉํ์ง ์์ ํน์ง ์ถ์ถ์ - ๋ถ๋ฅ ๋ฌธ์ ๋ ๋ถ๋ฅ์ ์ ํฉํ LDA(์ ํํ๋ณ๋ถ์๋ฒ)๋ก ํน์ง์ถ์ถ ํ์
- ์ ํ๋ณํ์ ํ๊ณ
- ๊ธฐ๋ณธ์ ์ผ๋ก ์ ํ๋ณํ์ ๊ฐ์ ํ๋ฏ๋ก ๋ฐ์ดํฐ ์์ฒด๊ฐ ๋น์ ํ ๊ตฌ์กฐ๋ก ๋ถํฌ๋ ๊ฒฝ์ฐ ์ฌ์ํ ์ ์์ด 2์ฐจ์ ๋ฐ์ดํฐ ๊ตฌ์กฐ๋ฅผ ์ ๋๋ก ํํํ ์ ์์
Refs
ํ๊ตญ๋ฐฉ์กํต์ ๋ํ๊ต ๋จธ์ ๋ฌ๋ ๊ฐ์ ๋ฐ ๊ต์ฌ
https://www.youtube.com/watch?v=n3W2UgWWWfY&t=548s
https://statisticsbyjim.com/basics/principal-component-analysis/
'Computer Science' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
๋จธ์ ๋ฌ๋ ๊ธฐ๋ณธ ๊ฐ๋ Machine Learning Basics (1) | 2024.12.03 |
---|---|
๋จธ์ ๋ฌ๋ | ์์๋ธ ํ์ต (0) | 2024.12.01 |
ํฐ ๋ ธ์ด๋ง ์ปดํจํฐ ๊ตฌ์กฐ (0) | 2024.05.01 |
์ด๋ฏธ์ง ํํ ๋ฐฉ์ | ๋์คํฐ vs ๋ฒกํฐ (0) | 2023.07.09 |