본문 바로가기

일상

코세라 Machine Learning Data Lifecycle in Production 수료

< Machine Learning Data Lifecycle in Production > 

코세라 Machine Learning Engineering for Production (MLOps) 특화과정의 두번째 강좌로서, 이번에는 Andrew Ng 교수님이 아닌 구글의 TensorFlow Developer Engineer로 있는 Robert Crowe 라는 분이 강의를 진행하신다. 수업은 총 4주차 내용으로 구성되어있고, 마지막 4주차 수업은 Optional 이라 나처럼 생략해도 수료증이 발급된다.  

 

솔직히 첫번째 강좌인 Introduction to Machine Learning in Production 을 들으며 데이터처리와 모델관리 부분에 있어 굉장히 공감을 많이 했었고 다음 강좌의 콘텐츠에 대해 기대했던 것이 사실이나, 이번 강좌는 기대에 미치지 못한 것 같다. 앞의 강좌에서 Andrew Ng 교수님이 다룬 내용을 동일하게 개론적 수준에서 다루고 있으며 중복내용도 많다. 그리고 실제적인 데이터처리, 모델링에 관한 노하우보다는 Tensorflow 에서 새롭게 출시한 Preprocessing/Analyzing Tool 인 Tensorflow Data Validation (TFDV) 를 소개하고, 이를 활용한 예제를 과제로 수행해야되기 때문에 Pytorch 를 주로 사용하는 나로써는 필요성이 느껴지지 않았고 지루했다. 또한, Tensorflow Extended(TFX)에서 나온 ML Metadata(MLMD) API로 DataLake, Warehouse, Feature Store 로 데이터를 수집/관리할 수 있는 기능도 있다고 소개한 것 같은데... SQL로 할 수 있는 걸 굳이 사용해야 되나 싶다. (그래도 도큐먼트를 보니... 잘 활용하면 모델서빙 시점에선 데이터, 모델관리리에 확실히 강점이 있을 것 같긴한데 이 부분은 나에게 아직 그 필요성과 이해도가 많이 부족한 것 같다...)

강의내내 전반적으로 드는 생각은 Google에서 코세라라는 플랫폼을 통해 "Tensorflow 에서 이런 좋은 기능도 만들었으니 수업들으면서 한번씩 써봐!" 하는 느낌이었다. 그래서 이번 강좌를 들으며 거부감이 약간 없지않았다.

 

아무튼 이 강좌에서 담고있는 내용은 아래와 같으며, 혹시 Tensorflow 를 주로 사용하시는 분이라면 도움이 될지도 모르겠다.

 

  • Tensorflow Extended(TFX) library to collect, label, and validate data
  • Feature engineering techniques (scaling, binning, and etc.)
  • Tensorflow Transform for data transformation
  • Feature selection using scikit-learn routine
  • Data scheme and metadata storage with ML Metadata library

 

 

728x90
반응형