대표사진
datascience
  1. 기본 리뷰 게시판

이미지

도서명 표기
살아 움직이는 머신러닝 파이프라인 설계
글쓴이
캐서린 넬슨 외 1명
한빛미디어
평균
별점10 (3)
datascience

평 및 발제



 



계속해서 기계학습 관련된 책을 보고 리뷰를 올리고 있다. 인공지능과 딥러닝이 큰 인기를 끌고 있는데, 나는 여전히 머신러닝을 공부하고 있다. 하지만 지금이라도 머신러닝을 공부하고 배울 수 있으니 한편으로는 기존의 내가 있던 분야에서 몇 걸음 더 전진하고 있는 것 같다.



 



관심은 있었지만, 실무적으로 해보지도 못했을 법한 머신러닝의 분야를 계속해서 접하고 있고, 그 근처에서 헤매고 있다는 것만으로도 감사할 일이라 생각된다. 그 이유는 내 전공은 자연계이고 생물학, 생화학, 분자생물학, 유전공학, 약리학을 공부했기 때문에 공학, 머신러닝, 딥러닝은 기존의 전공과 연계성도 없고, 향후 커리어를 쌓을 때 필요 없을 수 있기 때문이다. 



 



머신러닝을 공부하면서 느끼는 것은 재밌다? 신기하다?이다. 하지만 더 많이 느끼는 것은 어렵다?이다. ANN RNN CNN 듣기만 해도 어려운 단어들이 출몰하고, 머신러닝과 딥러닝의 차이는 이론적으로 알겠는데 막상 한걸음 들어가 보니 경계도 모호하다. 머신러닝을 배우고 있는데 왜 딥러닝 알고리즘을 배워야 하는지 모를 때가 많다.



 



머신러닝 파이프라인을 설게 한다!!! 멋진 말이다. 내가 가진 백그라운드에서 보면 생물정보 분석 파이프라인 설계는 접해보았는데, 머신러닝 파이프라인을 설계한다니 복잡한 Layer들을 계속해서 쌓는 것 같은 느낌이다. 



 



본론으로 돌아가서 본 책에 대한 내용은 간단하게 적어본다.



 





 



차례 및 요약



CHAPTER 1 머신러닝 파이프라인



CHAPTER 2 TFX - 텐서플로 익스텐디드



CHAPTER 3 데이터 수집



CHAPTER 4 데이터 검증



CHAPTER 5 데이터 전처리



CHAPTER 6 모델 학습



CHAPTER 7 모델 분석 및 검증



CHAPTER 8 텐서플로 서빙을 사용한 모델 배포



CHAPTER 9 텐서플로 서비스를 사용한 고급 모델 배포



CHAPTER 10 고급 TFX



CHAPTER 11 파이프라인 1부: 아파치 빔 및 아파치 에어플로



CHAPTER 12 파이프라인 2부: 쿠베플로 파이프라인



CHAPTER 13 피드백 루프



CHAPTER 14 머신러닝을 위한 데이터 개인정보 보호



CHAPTER 15 파이프라인의 미래와 다음 단계



APPENDIX A 머신러닝에 유용한 인프라 소개



APPENDIX B 구글 클라우드에 쿠버네티스 클러스터 설정하기



APPENDIX C 쿠베플로 파이프라인 조작 팁



 



머신러닝 파이프라인 : GPU의 광범위한 가용성과 BERT와 같은 트랜스포머나 DCGAN과 같은 GANs 등 새로운 딥러닝 개념의 등장으로 AI 프로젝트가 급증했다. 모든 요소에 사용되는 다양한 머신러닝 모델을 가속, 재사용, 관리 및 배포하는 프로세스를 표준화 하는것이 머신러닝 파이프라인이라고 할 수 있다.





 



머신러닝 파이프라인의 단계



모델 학습 -> 데이터 드리프트 확인 -> 전처리 -> 학습 -> 추적 -> 튜닝 -> 분석/검증 -> 배포 -> 스케일링 -> 피드백 루프





 



머신러닝 파이프라인을 도표로 보면 아래와 같으며, 이 책은 아래의 프로세스 과정을 각 챕터별로 상세하게 설명하고 관련 코드와 예제를 활용할 수 있다.







 



TFX : TensorFlow Extended(TFX)는 프로덕션 ML 파이프라인을 배포하기 위한 엔드 투 엔드 플랫폼이다. 적합한 버전을 확인하여 설치할 수 있다.





 



tfx를 활용한 예제 코드이다.





 



워크플로의 분리 모델 : 모델 서빙 컨테이너는 한 번만 배포되고, 데이터 과학자는 버킷의 웹 인터페이스나 명령줄 복사 작업으로 새 버전의 모델을 스토리지 버킷에 업로드할 수 있다.





 



텐서플로 모델을 활용한 예제 코드이다.





 



아무리 많은 영상을 보고 공부해보았지만, 파이프라인은 또 정말 새롭다. 여러 알고리즘과 학습 모델이 있지만 배울 때마다 늘 새롭고 어렵다.



 



한 줄로 설명하자면 본 책은 머신러닝 전 프로세스를 이해하고 이를 활용하여 실제 제품에 적용되는 모든 과정을 이해할 수 있는 책이라고 할 수 있다.



 





                   "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다." 


좋아요
댓글
0
작성일
2023.04.26

댓글 0

빈 데이터 이미지

댓글이 없습니다.

첫 번째 댓글을 남겨보세요.

datascience님의 최신글

  1. 작성일
    2022.10.7

    좋아요
    댓글
    0
    작성일
    2022.10.7
    첨부된 사진
    첨부된 사진
    20
  2. 작성일
    2022.8.26

    좋아요
    댓글
    0
    작성일
    2022.8.26
    첨부된 사진
    첨부된 사진
    20
  3. 작성일
    2022.8.11

    좋아요
    댓글
    0
    작성일
    2022.8.11
    첨부된 사진
    첨부된 사진
    20

사락 인기글

  1. 별명
    리뷰어클럽공식계정
    작성일
    2025.5.30
    좋아요
    댓글
    184
    작성일
    2025.5.30
    첨부된 사진
    첨부된 사진
    20
  2. 별명
    리뷰어클럽공식계정
    작성일
    2025.5.30
    좋아요
    댓글
    168
    작성일
    2025.5.30
    첨부된 사진
    첨부된 사진
    20
  3. 별명
    리뷰어클럽공식계정
    작성일
    2025.6.2
    좋아요
    댓글
    115
    작성일
    2025.6.2
    첨부된 사진
    첨부된 사진
    20
예스이십사 ㈜
사업자 정보