머신러닝 딥러닝 문제해결 전략

Posted by DavidEugen on April 24, 2022 · 4 mins read

머신러닝 딥러닝 문제해결 전략



게임처럼 접근하는 캐글


머신러닝과 딥러닝을 잠깐 이론적으로 ( 잠깐 예제만 돌려본 정도 ) 맛본 정도였다.

이번에 신백균님께서 보내주신 저서를 통해 캐글을 새롭게 접근 해 볼 기회가 생겨 스텝바이스텝으로 접근해 보려 한다.

책이미지

이책의 가장 큰 특징이라고 하면

  • 문제를 해결을 패턴화 시켜놓고
  • 예쁜 책 구성
  • 직관적 프로세스 제시
  • 반복적으로 적응할 수 있게 구성 된 것

이 가장 큰 특징인 것 같다.

공략구성

마치 게임 공략집을 보는 것 처럼, 처음 접근하는 사람들도 쉽게 따라 할 수 있도록 배려한 부분이 눈에 띈다.

3가지 도구

사실 어떤 책이든 마찬가지지만 저자가 효율적으로 지식을 제공하고자 여러 시도들을 많이 한다.

그런 여러 시도에도 불구하고 정작 읽는 독자에게 그러한 노력이 제대로 전달되기란 어려운 일이다.

그런데 이 책에서는 공략집을 통해 어떻게 하면 이 책과 빨리 진해질지, 저자가 의도한 프로세스에 쉽게 접근하도록 여러 장치들 추가로 마련해 둔 것 같다.

게임 공략집 처럼 이 책의 공략집 을 뒀다.

공략집

덕분에 나도 쉽게 미션을 따라해 나갈 수 있었다.

또 한가지 특징!! 엑셀 시트로 문제해결에 필요한 체크리스트 양식도 제공하고 있다.

체크리스트

문제해결 과정에서 짚어봐야 할 사항들을 프로세스 단계별로 정리해 놓았다.

저자의 깃허브에서 최신 버전을 확인 할 수 있다.

각자가 다운로드후 자유롭게 수정·개선하여 자신만의 체크리스트를 만들 수 있게 안내하고 있다.

책의 구성


이 책은 크게 3부로 구성되어 있다.

1부는 캐글에 대한 기본 안내이고 2,3부에서 문제 해결 프로세스를 설명하고 있다.

공량집

1부의 3장에서는 이 책의 전체적 문제해결 프로세스와 각 단계에서 점검해야 할 사항들에 대해 기본적으로 설명해 주고 있다.

4장에서는 데이터 유형을 나누고 각 유형에 필요한 시각화 기법들을 간단하게 소개하고 있다.

책의 구성

2부부터는 본격적으로 머신러닝 모델을 사용하는 캐글 경진대회에 익숙해질 있다.

머신러닝의 주요 개념들을 정리해본 다음 머신러닝 프로젝트 방법론을 다루고 있다.

책이 나아가는 과정을 통해 꼭 필요해서 익힐 내용이 난이도에 맞춰 잘 분배되어 있는것 같앗다.

2부부터는 본격적인 문제해결에 나서는 만큼 별책부록인 공략집의 미니맵이 큰 도움이 된다.

사실 난 ML 과 DL을 취미로 맛만 본 사람이라구요


대상독자

아마 난 여기 어디쯤인듯…. ;;;;;;

아!! 한가지 !! 이 책은 완전 입문자에게는 추천하지 않는다.

기본적인 머신러닝과 딥러닝의 기본 이론을 공부하고 파이썬을 조금이라도 다뤄 본 사람들이 접근하기 편할 것이다.

캐글 사이트를 통해 회원가입을 하고 본격적으로 따라 해 보았다.

캐글 사이트
캐글 사이트 홈

처음 캐글을 접하는데도 쉽게 접근 할 수 있도록 안내가 잘 되어 있었다.

경진대회에 Titanic 대회가 있는데 이는 일종의 캐글을 처음 접하는 사람들을 위한 튜토리얼이다.

기본적으로 타이타닉호에 탄 승객들의 이름성별, 나이, 지불한 운임, 가족수 등 여러 정보를 주고 각 승객들이 살았는지 죽었는지를 예측하는 경진대회이다.

훈련용 데이터에는 승객 정보와 생사여부가 모두 표기되어 있고 테스트용 데이터에는 승객 정보만 표기되어 있다.

앞으로 계속 사용하게 될 Jupyter 노트북에 대한 설명도 잘 되어 있다.

개인적으로 마음에 들었던 부분중에 하나는 아무래도 마우스 귀차니즘으로 인해 키보드로 해결할 수 있는 것은 키보드로 해결하려고 한다.

그러다 보니 단축키 많이 필요로 하는데, 이 책에서는 캐글을 사용하면서 필요한 단축키들도 풍부하게 제공해 준다.

기본도 잊지 않아요


중간중간 필수적인 개념들도 잠깐잠깐 잘 설명해 주고 있다.

간단한 개념

데이터를 분석하는 과정에서 필요한 주요 특징과 그에 따른 모델링 전략도 제시하고 있다.

분석 정리
모델링 전략
데이터분석

알차게 잘 차려진 밥상을 대접받은 느낌

이책은 단순 따라하기에서 벗어나 어떤 점을 분석해야 하는지, 분석 결과를 어떻게 적용하는지, 이 기법이 왜 유용하고 어떻게 활용하는지 등을 잘 안내하고 있다.

문제 해결을 위해 기초 체력을 기르는 느낌이다.

또한 그러한 저자의 의도와 바람이 그대로 느껴지는 책이다.

사실 데이터를 다루고 있지 않더라도 캐글의 이야기는 종종 많이 들어 왔었다.

그러나 처음 접근하는 입장에서 막막하기만 한데, 이 책은 문제를 어떻게 접근하고 분석해야 하는지 더 나아가 성능을 올리기에 어떤 부분들을 고려해야 하는지 구석구석 잘 살피는 책이다.

캐글을 처음 접하는 입장에서 친절한 책이라 느꼈지만, 문제를 접근하는 방법론이나 체계적인 과정들을 보자면 분명 현업에 계신 분들에게도 도움이 되지 않을까? 조심스럽게 넘겨짚어 본다.


참고