올해 초, 스캐터랩에서 출시한 "AI 챗봇 이루다"로 인한 뜨거운 논란은 서비스 운영 중단을 끝으로 잠잠해졌지만 AI 분야에 데이터 보안과 편향, 윤리적 가치 등의 많은 화두를 던졌다. 이러한 논쟁들이 그토록 뜨거웠고 지금까지도 "제2의 이루다 사태"를 막기 위한 여러 행보들이 이어지고 있는 이유는 결국, 잘못 개발된 AI가 사람들에게 부정적이고 불쾌하며, 심지어는 혐오의 감정까지 경험하게 할 수 있다는 것을 체감했기 때문이다.
이를 다시 한번 되새기며, 유저들이 보고한 이루다의 사용 경험과 이를 통해 알 수 있는 Human-Centered AI의 중요성, 그리고 Human-Centered AI를 위한 HCI/UX 전문가들의 역할에 대해 다뤄보겠다.
이루다의 사용 경험과 유저 테스트의 부재
이루다의 사용자 경험은 이미 큰 논란이 되었듯 좋지 못했다. 이루다가 인종, 젠더, 장애인 등 소수자에 대한 혐오적 발언을 하면서 사용자에게 불쾌감을 주기도 했고, 반대로 사용자들이 집단적으로 이루다를 성희롱하는 사태가 발생하기도 했다. 주체가 누가 되었든 이루다의 사용이 누군가에게 불편함을 주었고 사회 통념적으로 올바르지 않았음은 분명한 사실이다. 이 사태를 접하며 가장 먼저 든 생각은 이루다가 출시되기 이전에 유저 테스트(User test)가 충분히 이루어지지 않은 것 같다였다. (유저 테스트를 아예 하지 않았을 수도 있겠다 라는 생각도 했다.) 물론, 이루다 사태는 본질적으로 훈련 데이터가 잘못되었기 때문에 발생했지만 유저 테스트가 충분히 시행되었다면 잘못된 데이터로 학습된 AI 서비스가 출시되었을 때의 문제와 그 심각성을 사전에 통감할 수 있었을 것이다.
그렇다면, 이루다의 유저 테스트가 충분히 이루어지지 못했던 이유는 무엇일까? 감히 추측해보자면 이루다가 신기술 혹은 발전된 기술이라는 점에만 집중했기 때문이 아닐까 생각한다. 이루다에는 기존보다 크게 발전된 자연어 처리 생성 기술(Natural Language Generation, NLG)이 적용되었다. 실제 사람이라고 속을 수 있을 만큼 자연스러운 문장 구사, 줄임말이나 최신 유행하는 말투를 사용하는 것뿐만 아니라 사용자 말의 문맥을 파악하여 적절한 답변을 내놓는다.
이러한 이루다의 기술은 아마도 자연어 처리 기술의 성능을 측정하는 대표적 지표들인 BLEU나 BERT, ROUGE, METEOR 등을 통해 평가되었을 것이다. 뿐만 아니라 이루다의 말이 얼마나 자연스러운지에 대해 사람들을 대상으로 설문하거나 인터뷰를 진행했을 수도 있다. 그리고 이러한 평가들에서 이루다는 굉장히 높은 점수를 얻었을 것이다. 하지만, 이러한 방법들은 "기술의 성능(Performacne)"만을 평가한 것이라는 점이 중요하다. 아무리 기술의 성능이 좋다 하더라도 기술이 제품화되고 서비스화되어서 제공되었을 때, 사람들의 평가는 다를 수 있다. 때문에 충분한 유저 테스트를 시행해 사람들의 평가를 살펴보고 문제점을 파악하는 과정이 꼭 필요하다.
Human-Centered AI의 중요성
이루다 사례와 같이 AI 기술이 제품/서비스화되면서 AI와 사용자 간에 직접적인 인터랙션이 이루어지는 사례가 많아지고 있다. 때문에 더 이상 AI가 성능으로만 평가되어서는 안되며 단순히 뛰어난 기술 개발이 목표가 되어서는 안 된다. 궁극적으로 AI가 사람들에게 어떤 가치를 전달할 것인지가 목표가 되어야 한다. 이와 일맥상통하는 것이 "Human-Centered AI"라는 개념이다. Human-Centered AI는 AI 기술은 그 자체가 목적이거나 인간을 대체하는 것이 아니라, 인간성(Humanity)을 최고의 가치로 삼고 인간의 능력을 확대하며 개인과 사회의 웰빙을 향상하는 수단이 되어야 한다고 얘기한다.
우리나라 과학기술정보통신부에서도 Human-Centered AI를 위한 기준안을 마련하고 공개한 바 있다. 해당 기준안에서는 Human-Centered AI를 위한 기본 원칙으로 '인간의 존엄성', '사회의 공공선', '기술의 합목적성'이라는 3가지 기준을 제시한다.
① 인간 존엄성 원칙
② 사회의 공공선 원칙
③ 기술의 합목적성 원칙
(과학기술정보통신부의 국가 인공지능 윤리기준 안에서 발췌)
그리고, 위의 세 가지 기본원칙을 실현할 수 있는 세부 요건으로 10가지 핵심 요건 ①인권보장, ②프라이버시 보호, ③다양성 존중, ④침해금지, ⑤공공성, ⑥연대성, ⑦데이터 관리, ⑧책임성, ⑨안전성, ⑩투명성을 제시하고 있다. 이루다에 적용해서 본다면, 안타깝게도 모든 원칙과 핵심 요건에 위배된다.
Human-Centered AI를 위한 HCI/UX 전문가의 역할
Human-Centered AI의 원칙과 요건을 새로 개발한 AI가 잘 지켰는가를 확인하는 것은 유저 테스트와 같은 사용자 경험 평가가 방법이 될 수 있다. 사람들에게 직접 AI를 사용하게 하고 직접 평가해보게 하고, 사용 과정을 관찰 분석하기도 하면서 기준을 충족하는지 확인하는 것이다. 결국, 이는 HCI/UX 전문가의 역할이 된다. 그럼 그동안 HCI/UX 전문가들이 다른 소프트웨어 기술의 사용자 경험을 평가하고 분석해왔듯이 AI 기술을 평가하면 되는 것일까? 이 논의에 대한 고찰이 최근 Stanford 대학에서 공유한 "Rethinking the AI-UX Boundary for Designing Human-AI Experiences" 세미나에 잘 담겨있다.
(이해한 바가 다르거나 일부 의역이 있을 수 있으니 세미나 영상을 직접 보는 것을 추천드린다.)
보편적인 모바일 앱의 UX를 기획하고 디자인하는 프로세스는 아래와 같을 것이다. 사용자를 리서치하고 현재의 문제, 니즈 등을 정의한 뒤 이를 해소하기 위한 최적의 UX 기획과 화면 설계가 도출되면 최종 산출물로 명세서를 작성한다.
그리고, 작성된 명세서를 개발자에게 전달한다. 그러면 이때부터 기술 구현까지는 모두 개발자에게 Hand-off 된다. 그리고 구현된 모바일 앱을 다시 UX가 Hand-off 받아 유저 테스트 등을 통해 사용자 경험을 평가한 후 다시 앱을 수정하고 보완한다.
그런데, AI 기술이 접목된다면 어떻게 될까? 여타 IT기술과 달리 AI는 처음 훈련 데이터에 의해서 변화하기도 하고 유저의 사용 과정에서 계속 변화하기도 한다. 또한, 학습 데이터의 양과 질에 따라 기술적 한계가 달라지기 때문에 어디까지 가능하고 불가능한지가 불분명하다. 이 때문에 기존 소프트웨어 UX와 달리 인터페이스 수준만으로 사용자 경험을 온전히 기획할 수 없게 된다. 만약, 어떤 수단과 방법으로 UX 기획과 디자인 결과물이 나왔다 하더라도, AI 모델이 다 만들어진 후 사용자 평가를 진행하는 것은 위험 부담이 있고 좋은 결과를 기대하기도 어렵다(이루다처럼).
따라서, HCI/UX 전문가들은 단순히 Hand-off 하는 수준의 협업을 넘어서 기술 구현을 포함한 제품 개발 전 과정에서 데이터 과학자, 개발자와 아주 긴밀하고도 긴밀하게 소통해야 한다. Human-Centered AI의 원칙을 잘 지키면서도 유저의 니즈와 요구사항에 알맞은 AI 모델이 생성되도록 훈련 데이터 정제 과정에서부터 참여해야 한다.
AI 모델이 만들어진 뒤, 동작 상황에서 사용성은 좋은지 유저 시나리오를 잘 따라가는지 등을 확인하고 정확한 기술 사양을 판단해야 된다. 이후 기술 스펙이 정해지면 구체적인 인터페이스를 설계할 수 있게 된다. 인터페이스 레벨까지 다 구현되고 나서야 사용자 경험을 평가하고 분석하는 과정까지 이를 수 있게 되는 것이다.
가장 중요한 점은, 위 과정이 가능하도록 AI 기술에 대한 전문 지식을 갖추는 것이 선행되어야 한다. 예를 들어, 데이터 훈련 과정에서 필요한 데이터 레이블링, 파라미터 등의 용어와 개념을 알고 있어야 한다. 새로운 기술이 나올 때마다 사용자의 편리함도 증대되는 만큼 HCI/UX 전문가들이 공부해야 하는 영역들도 함께 늘어나는 듯하다. (ㅎㅎ)
참고자료
소셜댓글