- 기본 카테고리

얍얍얍
- 작성일
- 2022.10.3
데싸노트의 실전에서 통하는 머신러닝
- 글쓴이
- 권시현 저
골든래빗
데싸노트의 실전에서 통하는 머신러닝 책을 읽을 기회가 생겨 간단하게 읽고 서평을 써 보게 되었다. 피처 엔지니어링 + TOP 10 알고리즘 + 실무 노하우로 익히는 실무형 문제풀이 해법서라고 소개되고 있다.
저자는 해외의 데이터 사이언티스트로서 머신러닝과 데이터 과학을 공부한 것으로 보인다. 이 책을 읽고 찾아보니 AI분야에선 근래에 활발히 연구되고 있는 딥러닝 외에도 머신러닝이 필요에 맞추어 사용되고 있다고 한다. 딥러닝이 목적이 세분화 되어있고 사용하기 까다롭다고 한다면 딥러닝을 제외한 머신러닝은 정형화가 잘 되어 있고 사용하기 좀 더 쉬운 알고리즘으로 보인다.
이 책에선 다음의 10가지 알고리즘을 다룬다고 한다.
선형 회귀
2. 로지스틱 회귀
K-최근접 이웃
나이브 베이즈
결정 트리
랜덤 포레스트
XG부스트
라이트GBM
K-평균 군집화
주성분 분석(PCA)
알고리즘은 달라도 머신러닝 실행 순서는 학습 -> 예측 -> 평가로 진행된다고 한다. 이 부분은 거의 정형화되어 있어서 성능에 큰 영향을 미치지 않는다고 한다. 쓰레기가 들어오면 쓰레기가 나온다고 한다. 머신러닝에 딱맞는 말이라고 하는데 좋은 데이터가 좋은 머신러닝 모델을 만든다고 소개하고 있다. 내가 생각했을 때도 알고리즘 자체는 정형화되어 있다고 한다면 딥러닝을 제외하고 머신러닝을 생각했을 때 좋은 데이터를 많이 확보하는 게 관건이 될 것으로 생각 된다.
이 책은 TOP 10 알고리즘을 송략하면서 무엇보다 데이터 분석과 가공에 공을 들인다고 한다. 데이터에 어떤 가공 기법이 필요한지 하나하나 분석하며 클리닝, 피처 엔지니어링, 차원 축소 등의 기법을 사용 한다고 한다. 이렇게 데이터 분석 능력을 기르며 알고리즘을 익히면 현업과 캐글에서도 통하는 실력을 갖추게 된다고 한다.
머신러닝을 줄여서 ML, 우리말로 기계학습이라고도 한다. 의미만 살펴보면 머신이 학습을 하는 것을 말하는 것이다. 어떻게 학습을 하는지 전통적인 프로그램과 머신러닝을 비교하며 알아볼 수 있다.
예를 들어 입력값에 10을 더하는 프로그램을 사람이 만든다고 하면 입력값으로 3을 주면 출력값은 13이 된다. 이처럼 전통적인 프로그램에서는 사람이 모델을 만들지만 사람이 만든 분석 프로그램인 머신러닝 알고리즘에 입력값과 해당 정답값에 대한 결괏값을 입력해 주면, 입력값과 정답값 간의 관계를 찾아서 머신러닝 알고리즘이 새로운 프로그램(모델)을 만들어 준다고 한다.
즉 머신러닝은 머신러닝 알고리즘으로 입력된 데이터(입력값과 정답값) 간의 관계를 밝혀내서 그 관계를 새로운 프로그램(머신러닝 모델)으로 만들어 새로운 데이터가 주어졌을 때 결과를 예측하는 일련의 과정이라고 한다.
이 책에서 다루진 않지만, 딥러닝은 우리말로 심층학습이라고도 하는데 인공 신경망을 기반으로 한 특수한 머신 러닝 기법으로, 빅데이터 기술과 하드우에 발전, 새로운 알고리즘 등장으로 각광받게 되었다고 한다. 딥러닝은 이 책에서 다루는 머신러닝 알고리즘과는 달리, 주로 자연어 처리나 이미지, 비디오 분석 같은 목적으로 사용된다고 한다. 물론 딥러닝도 엑셀 같은 형태의 데이터들을 더 잘 다룰 수 있게 진화하고 있으나, 아직까지 해당 분야에서 성능이 탁월하지는 못하다고 한다.
딥러닝은 인간의 두뇌 작동 방식을 본떠 개발된 것으로 입력층과 출력층 사이에 은닉층을 두어 인간의 신경망처럼 작동한다고 한다. 그래서 이를 인공 신경망이라고 부른다고 한다.
그럼 이것으로 데싸노트의 실전에서 통하는 머신러닝 책의 리뷰를 마칠까 한다.
이 글은 골든래빗으로 부터 책을 증정받아 작성되었습니다.
- 좋아요
- 6
- 댓글
- 0
- 작성일
- 2023.04.26
댓글 0
댓글이 없습니다.
첫 번째 댓글을 남겨보세요.