최근 AutoML 도구를 찾는 이들이 늘고 있다.
AutoML은 다양한 선택지가 있다. 공용 클라우드 서비스를 이용할 수도 있고, 상용 도구를 고를 수도 있다. 결국 사용 용도와 조건, 사용 중인 인프라 환경 그리고 비용 등을 고려하여 선택할 수 있다.
그렇다면 AutoML을 찾는 이유는 무엇일까?
모델 생성과 트레이닝은 모델 최적화, 경량화 등의 목표에 한걸음씩 다가서는 반복적인 과정이다. 지루하고 단순한 이 작업을 자동화하여 머신 러닝 프로젝트의 생산성을 높이는 것이 바로 AutoML을 찾는 이유다.
시민 데이터 과학자가 AI 프로젝트에 참여할 수 있도록
AutoML을 찾는 이유는 또 있다. 모델 생성과 트레이닝을 꼭 데이터 과학자의 일로만 볼 것인가? 데이터 과학자가 아닌 도메인 전문가가 직접 뭔가 해볼 수는 없을까?
이런 궁금증에 대한 속시원한 답을 AutoML이 제시한다. AutoML 도구는 지향점은 다르지만 대부분 누구나 손쉽게 모델을 생성하고 트레이닝하는 것에 초점을 맞춘다. 관련하여 업계에서는 AutoML을 ‘시민 데이터 과학자(Citizen Data Scientist)가 AI 프로젝트에 주도적으로 참여할 수 있도록 돕는 플랫폼’이라고 소개한다.
시민 데이터 과학자는 고급 진단 분석 또는 예측 및 규범적 기능을 사용하는 모델을 만들거나 생성할 수 있으나, 주 업무는 통계 및 분석 분야가 아닌 사람으로 정의한다.
시민 데이터 과학자가 조직에 많을 수록 나쁠 것은 없을 것이다. 코딩을 몰라도 된다. 비즈니스 데이터에 대한 이해만 있어도 충분하다. 피쳐 엔지니어링과 머신 러닝 트레이닝은 플랫폼이 알아서 처리한다.
사실 이런 접근은 데이터 쪽에서 새로운 것이 아니다. 비즈니스 인텔리전스(BI)가 유행하던 시절 셀프 서비스 BI를 강조하던 업체들이 꽤 많았다. 통계 전문가, 데이터 전문가가 아니더라도 누구나 고급 비즈니스 분석을 할 수 있어야 한다고들 입을 모았다. 이게 AI 분야에서도 똑같이 일어나고 있는 것이다.
AutoML, 데이터 과학자의 영역을 보편적 업무로...
AutoML은 데이터 과학자의 업무 영역이던 모델 생성과 트레이닝을 현업 담당자, 개발자, BI 전문가 등 다양한 이해관계자도 수행할 수 있는 보편적인 업무로 만들고자 시도 중이다.
이것이 어느 정도 성공할지 아직은 확신할 수 없지만, 앞서 이야기한 것과 같이 AI 프로젝트에 관심을 갖고 참여하는 이가 많을 수록 비즈니스 측면에서 나쁠 것 없어 보인다.
물론 한계는 있을 것이다. 데이터와 기술은 언제나 ‘닭이 먼저냐 혹은 달걀이 먼저냐’의 문제와 비슷하다. 풍부한 도메인 지식을 바탕으로 데이터를 바라보는 이가 모델 생성과 트레이닝에 더 유리한 것은 맞다. 하지만 데이터 과학에 대한 전문 지식이 없다면 최적의 모델을 끌어 내는 데에는 한계가 있을 것이다.
데이터 과학자 역시 AI 전문성은 높지만 모든 도메인을 이해할 수 없다. 즉 서로가 서로의 전문성을 존중 하는 가운데 부족한 점을 훈련을 통해 채워 나가는 노력이 필요하다.
AutoML이 추구하는 시민 데이터 과학자 개념이 성공하려면 적절한 훈련과 교육에 대한 노력도 있어야 하지 않을까?