[라이트 딥러닝] 1. 넓은 시각으로 보는 머신러닝 개괄

728x90

2022년 11월 Chat GPT가 대중적으로 굉장히 넓게 알려지면서 서서히 붐이 오고 있던 인공지능 시장이 그야말로 전성기를 맞이했다는 생각이 드는 요즘입니다. LLM(Large Language Model) 뿐만 아니라 CV(Computer Vision) 분야에서는 저작권 문제가 대두되고 있기는 하지만 사진과 그림체를 학습시켜 그림체를 입은 새로운 그림을 만들어내고, 음성합성 분야에서는 인공지능을 활용해 TTS가 노래를 부르게 하기도 합니다.

눈에 보이는 서비스를 제공하는 위와 같은 분야를 제외하고도 인공지능을 통한 이상탐지 솔루션, 강화학습을 활용한 게임 봇(Bot) 생성 등 아직 저도 완벽히 쓰임을 다 알지 못하는 무궁무진한 분야에서 딥러닝이 사용되고 있습니다. 이번 포스팅에서는 AI를 공부하기로 마음먹은 당신과 저를 위하여 머신러닝을 개괄하는 가벼운 내용을 다뤄보겠습니다.

1. What is ML / DL?

"야, 그래서 인공지능이 뭔데?"

라고 물어보는 친구들에게 저는 주로 "미적분이야^^..." 라고 대답하곤 합니다. 실은 미적분만은 아니고, 선형대수, 확률과 통계, 미적분으로 이루어져 있다고 할 수 있겠습니다. 고등학교를 다닐 때 대체 미적분을 어디에 써먹는지 궁금했는데 5년 만에 깨달았습니다. 이렇게 써먹으려고 공부했다는 사실을요. 인공지능이 수학인 걸 알았다면 다음은 머신러닝과 딥러닝에 대해 탐구해볼 시간입니다.

요즘에야 머신러닝과 딥러닝과 인공지능을 혼재해서 쓰는 경우가 많은 것 같고 저도 그런데, 개인적으로는 신경망을 사용하느냐 아니냐가 머신러닝과 딥러닝을 나눈다고 생각합니다. 머신러닝은 좀 더 포괄적인 개념이고, 그 중에서 신경망을 사용하는 녀석들이 딥러닝이라는 하위 집합으로 묶이는 것이죠. 신경망이 무엇인지는 좀 더 나중에 신경쓰도록 합시다.

모델 학습이나 구조만큼이나 중요한 파트가 바로 데이터를 분석하고 가공하는 과정입니다. 데이터 분석 전문가 자격증(맞는지 모르겠습니다)에서도 실제로 랜덤 포레스트 정도의 머신러닝 기법을 써서 분석하는 과제가 나온다고 들었습니다. 사실 인공지능은 무엇보다도 데이터가 중요한 분야이기 때문에 빼놓을 수 없습니다. 따로 EDA를 공부할까 고민이 될 정도로요. 공부하게 되면 정리해서 올리겠습니다.

어쨌거나 토픽은 이렇습니다. 머신러닝은 경험적으로 스스로를 발전시키는 알고리즘입니다. 중요한 것은 '어떻게' 발전시킬 것이며, '무엇을' 해낼 것인지가 되겠습니다. 그럼 머신러닝 분야에 대해 알아봅시다.

2. 종류

제 짧은 지식에 의하면 크게 세 가지로 분류할 수 있을 것 같습니다. 지도학습(Supervised Learning), 비지도학습(Unsupervised Learning), 강화학습(Reinforcement Learning) 입니다.

지도 학습(Supervised Learning)

지도학습은 정답을 제공해주는 학습방법입니다. 말 그대로 머신러닝 모델이 맞았는지, 틀렸는지를 '지도' 해주는 것입니다. 흔한 예제를 떠올려보자면 아래와 같은 경우입니다.

물체를 구분하는 모델이 추정한 이름이 맞았는지 틀렸는지를 모델에게 알려줌
30분 뒤의 주가를 예측하는 모델이 추정한 주가가 실제 값과 얼마나 차이가 나는지 모델에게 알려줌
이미지에서 물체의 테두리를 인식하는 모델이 추정한 테두리가 실제 테두리와 어느 정도 차이가 나는지 모델에게 알려줌
정답(label)을 학습 시에 제공해준다는 특징이 있습니다. 주로 답을 예측하는 문제를 해결하는 경우가 지도학습에 포함됩니다. 분류(Classification) 및 회귀(Regression) 문제가 주로 이쪽이고, 어떻게 분류하고 무슨 문제를 회귀로 해결하는지에 따라서 모델은 무궁무진하게 달라집니다.

비지도 학습(Unsupervised Learning)

비지도학습은 거의 1부터 100까지를 전부! 모델에게 맡기는 방식입니다. 모델에게 정답을 제공하지 않으며, 오로지 데이터만 가지고 모델이 자체적으로 특성과 데이터 구조를 공부해서 결과를 냅니다. 요즘 핫한 생성모델들이 이 카테고리에 속합니다.

여러 데이터들을 모델이 스스로 알아낸 특성에 따라 분류
데이터의 특성을 학습해 다른 데이터에 입히는 경우
학습된 데이터를 기반으로 새로운 데이터를 생성

자기지도 학습 Self-Supervised Learning

자기지도 학습은 일종의 비지도 학습이라고도 볼 수 있습니다. 정답이 없는 데이터가 주어지면 모델이 스스로 레이블을 만들어서 학습하는 경우를 말합니다. 대표적인 에시로 언어모델인 BERT가 있습니다. 이 내용은 말하면 길어지고 어려워지므로 추후 다루도록 하겠습니다.

강화 학습(Reinforcement Learning)

강화 학습은 지도학습, 비지도 학습과는 완전히 궤를 달리합니다. 강화 학습 모델은 환경(Environment)와 소통하면서 행동 선택 정책(policy)에 따라 선택한 행동(action)이 환경에 미치는 영향에 따라 보상(Reward)를 받으며 상황(state)에 맞는 행동을 선택할 수 있게 학습됩니다.

벽돌깨기 게임 봇 학습
에너지 최적화 장치 제어 모델
실시간으로 환경에 대처하는 방법을 배운다는 점이 확연히 다른 컨셉인데, 자세한 내용은 Reinforcement Learning 카테고리(https://dnai-deny.tistory.com/category/%F0%9F%90%AC%20ML%20%26%20Data/%F0%9F%93%AE%20Reinforcement%20Learning)에서 다루고 있습니다.

3. 분류(Classification)와 회귀(Regression)

분류(Classification)

제게 가장 친숙한 분류 문제는 MNIST hand writing 데이터셋 분류입니다. 아마 대부분의 엔지니어 분들께서 MNIST 데이터셋으로 머신러닝 입문을 하셨을 것으로 생각됩니다.

(출처 - Towards Data Science)
MNIST 데이터셋은 0부터 9까지를 손으로 쓴 이미지들로 구성되어 있습니다. 이 이미지 각각에 "이 이미지는 7이야, 이 이미지는 6이야" 하고 라벨을 달아준 뒤에 분류모델을 실행시켜 실제로 모델이 정확하게 이미지를 올바른 클래스로 분류할 수 있게끔 합니다. 이러한 문제를 지도학습 - 분류 문제로 봅니다.

비지도 학습의 영역에서는 산재된 데이터를 주고, 특성에 따라 그룹을 만드는 Clustering 이 대표적입니다.

(출처 - Water Programming)
데이터의 특성을 추출해내고, 그 특성을 기반으로 가까운 녀석끼리 묶어주는 방법이라고 보시면 되겠습니다.

회귀(Regression)

가장 유명한 회귀 문제는 아마도 집값 예측 문제일 겁니다. MNIST 데이터셋과 함께 입문 문제로 양대산맥, 쌍두마차를 이끌고 있죠. 회귀 문제는 과거의 데이터들을 보고 현재 상태가 주어졌을 때 예측되는 결과를 추정해내는 것입니다.

(출처 - Grokking Machine Learning)
방 개수, 건축 연도 등등의 데이터와 집의 가격을 제공하면 모델은 집의 가격을 제외한 특성들로 집 가격을 예측하고, 오차를 줄여나갑니다. 학습이 완료된 모델에게 배울 때 썼던 종류의 데이터들을 제공하면 집값을 예측해주게 되는 것이죠.
이렇게 연속적인 값의 범위 내에서 예측값이 나오는 경우를 회귀 문제라고 합니다.

여기까지가 머신러닝의 기초 중의 기초라고 생각이 됩니다. 알아야할 용어는 산더미고 앞으로는 수학과도 친해져야겠지만, 우선 이 정도부터 시작하도록 합시다. 다음 시간에는 회귀 문제에 대해서 좀 더 자세히, 수학적으로^^ 다뤄보는 시간을 갖겠습니다. 수고하셨습니다!

728x90

저작자표시 비영리 변경금지

'🐬 ML & Data > 🦄 라이트 딥러닝' 카테고리의 다른 글

[라이트 딥러닝] n. Backpropagation 수식 풀이 및 검증 (0)	2024.03.13
[라이트 딥러닝] 0. Intro (1)	2023.10.06

1. What is ML / DL?

2. 종류

지도 학습(Supervised Learning)

비지도 학습(Unsupervised Learning)

자기지도 학습 Self-Supervised Learning

강화 학습(Reinforcement Learning)

3. 분류(Classification)와 회귀(Regression)

분류(Classification)

회귀(Regression)

'🐬 ML & Data > 🦄 라이트 딥러닝' 카테고리의 다른 글

티스토리툴바