지난 1월부터 온라인 컨퍼런스로 진행된 ‘Agile AI Forum(AI포럼)’의 마지막 3회차 행사가 지난 22일 성공적으로 마무리됐다.
이번 회차에서는 의료 분야에 적용되는 AI 기술의 선결 과제를 짚어보는 한편 마이크로소프트의 생성형 AI 에이전트 ‘Copilot’이 이뤄내는 혁신 사례가 소개됐다. 이어 셀렉스타, 위데이터랩, 티쓰리큐 등 AI 기술 기업들이 저마다 진행 중인 LLM 모델의 방향성을 공유하는 시간도 마련됐다.
이날 3회차 AI포럼의 첫 주자로는 이요한 서울대 보라매병원 정형외과 교수이자 KGIF(한국생성AI파운데이션) 부회장이 ‘생성AI와 Treatment algorithm’를 주제로 나섰다. 이어 이건복 마이크로소프트 Digital & App Innovation 리드가 ‘생성형 AI 에이전트 기반 혁신’을 주제로 자사 AI 기반 서비스인 ‘Copilot(코파일럿)’의 특징과 방향성을 소개했다.
이어 임도형 로완 CTO가 ‘디지털치료제와 AI’를, 황민영 셀렉트스타 부대표(공동창업자)가 ‘Data-centric AI: LLM, 핵심은 데이터’를, 권건우 위데이터랩 대표가 ‘DBMS 지식을 학습시켜 Local LLM ChatDBA를 만든 과정과 교훈’을, 박병훈 티쓰리큐 대표가 ‘멀티모달 지능형 검색 플랫폼을 활용한 Private-LLM 구축 전략’을 주제로 각각 자사의 LLM(초거대언어모델)의 방향성을 설명하는 순서로 진행됐다.
총 6명의 각 분야 전문가와 기업 대표들의 발표로 진행된 이번 웨비나에서 특히 주목도가 높았던 것은 개발자 입장이 아닌 수요자 입장에서 의료에 적용되는 AI 기술의 방향성과 선결 과제를 언급한 이요한 교수의 발표였다.
의학자의 시각에서 바라보는 생성 AI… Domain specific LLM이 뜬다
이날 이요한 교수는 스스로를 “AI 전문가라기 보다 수요자에 가깝다”며 “의료 전문가이자 AI 수요자 입장에서 향후 생성 AI가 의료에 접목될 수 있는 부분에 대해 말하겠다”고 운을 뗐다. 이 교수가 제시하는 의료의 역사는 AI의 역사와 궤를 같이하고 있다. 1952년 머신러닝 개념이 처음 제안된 이후 1976년부터 지속적으로 의료 분야에 접목이 시도됐다는 것이다.
이는 2000년대 딥러닝 개념이 나오고 다시 현재 생성 AI 시대에 이르기까지 지속 중이다. 이마이신(E mycin), IBM의 왓슨에 이어 최근 마이크로소프트(MS)의 뉘앙스 등을 사례로 든 이 교수는 “의료 AI는 AI 발전 흐름에 따라가되 한 발짝 느리게 가는 특징을 가지고 있다”며 “생성 AI 등장 이후 챗GPT와 같은 제너럴 LLM이 등장하고 현재는 특정 도메인 대상 LLM들이 많이 개발되고 있다”고 진단했다.
“Domain specific(특정 도메인을 대상으로 한) LLM은 기본적인 제너럴 LLM을 기반으로 하는 것도 있고 완전히 새로 만드는 것도 있는데 특징은 특정 목적 혹은 특정 섹터를 담당하고 특정 기능만 한다는 겁니다. 그래서 보안성과 신뢰성이 상당히 중요해졌죠. 그렇기 때문에 요즘에는 LAG(Retrieval Augmented Generation, 검색 결과를 활용해 텍스트 생성 모델의 성능을 향상시키는 기술)이라는 가장 핫한 기술을 통해 보안성과 신뢰성을 확보한 Domain specific LLM이 많이 만들어지게 됐습니다. 현재는 작은 기업들이 많이 시도하고 있지만 나중에 진짜 매출은 Domain specific LLM을 통해 나올 것이고 큰 시장이 형성될 거라고 생각합니다.”
의료에 생성 AI 접목을 위해 해결해야 할 과제는?
그렇다면 의료라는 분야에 AI를 제대로 적용하기 위해서 해결해야 할 과제는 무엇일까? 이 교수가 제시한 자료에 따르면 환자들을 기반으로 생성되는 의료 데이터는 최근 5년간 연평균 18%의 증가율을 보이고 있다. 입원 환자 1인당 하루 평균 8만6400개의 수치가 생성될 정도로 데이터 량도 어마어마하다. 이를 데이터 용량을 환산하면 의료기관 당 하루에 생성되는 전체 의료 데이터의 크기는 약 370TB에 달한다.
문제는 이러한 데이터들이 대부분 ‘비구조화 데이터’라는 점이다. 비구조화 데이터는 사전 정의된 데이터 모델이 없는 데이터를 의미하는 것으로 의료 현장에서 이뤄지는 관찰, 치료 계획, 환자 진행 상황을 포함한 의사, 간호사 및 기타 의료 서비스 제공자가 제공하는 차트 데이터와 영상 판독문 등의 임상노트 상 데이터를 의미한다. 아이러니하게도 이렇듯 엄청난 양의 비구조화된 데이터가 쏟아지는 상황은 예상 밖의 더 큰 문제를 낳고 있다는 것이 이 교수의 생각이다. 이 교수는 이와 같은 상황을 영화 '어벤저스'에서 등장하는 최강의 무기 '건틀렛'에 빗대어 설명했다.
“의료 데이터가 많이 만들어지면 환자를 좀 더 잘 볼 줄 알았는데, 오히려 의사들이 환자를 보는 시간보다 컴퓨터를 보며 데이터를 분석하는데 더 많은 시간을 할애하게 됐습니다. 결과적으로 오류가 발생해 미국에서만 매년 25만명 이상이 의료 과실로 사망하고 있다고 합니다. 데이터가 타노스의 건틀렛인 줄 알았는데 결국 휴먼 에러를 만들어 의료 과실을 일으키며 더 안좋은 상황을 만든 거죠. 그래서 이런 문제를 결국 AI를 통해 극복하려는 연구가 최근 활발하게 진행되고 있습니다.”
이어 이 교수는 앞서 언급한 비구조화 데이터를 좀 더 구체적으로 설명했다. 텍스트와 영상 판독이 혼재돼 있는데다가 텍스트만 놓고 봤을 때도 약어가 너무 많고 그 마저도 과마다 달라 전공이 다른 의사들의 경우 서로의 차트를 해석하기 어려울 정도라는 것이다. 영어와 한글이 혼합돼 있는 것도 문제다. 이 교수는 “이러한 의료 데이터 분석은 AI 전문가와 의료 전문가가 함께 협업하지 못하면 절대 해결하지 못하는 부분”이라며 의료 AI 만의 특성을 언급했다.
“의료 AI의 특징은 첫째 환자를 대상으로 하기 때문에 정확해야 한다는 겁니다. 여러 번 하더라도 똑 같은 결과가 나와야 하기 때문에 신뢰성과 재현성이 중요합니다. 둘째로는 치료를 할 경우에는 명확한 근거가 있어야 하고요. 셋째로 실제 환자들에게 치료했을 때 얼마나 효과가 나오는지도 검증돼야 합니다. 넷째는 의료 윤리 준수입니다. 다섯째는 환자의 데이터를 기반으로 진행이 되기 때문에 데이터 보안 및 개인정보 보호가 상당히 중요하죠.”
이 교수가 열거한 기준에서 보면 아직까지 생성 AI를 의료에 접목하는 것은 여간 까다로운 일이 아니다. 생성 AI의 가장 큰 문제로 제기되고 있는 ‘환각(hallucination, 잘못되거나 허위 정보를 생성하는 것)’을 비롯해 생성되는 이미지가 부정확하다는 것 역시 해결해야 할 과제다. 그 외에 윤리 준수, 데이터 보안 등도 아직까지 한계점으로 지적되는 부분이다. 이어 이 교수가 제기하는 또 한 가지 문제는 ‘최신성의 한계’다.
“보통 저희들이 의학 논문을 만드는 과정은 탐색을 통해 문제를 확인하고 검증을 통해 문제를 풀고 이것을 저널에 발표하는 순으로 이뤄지는데, 최소 3년의 시간이 걸립니다. 현재 생성 AI들은 이 발표가 된 논문 중에서도 그나마 저작권 문제가 없는 것만을 학습할 수밖에 없죠. 결국 최신 의료를 반영하는데 한계가 있을 수 밖에 없습니다. 그 외에도 Personalization(개인화), 파인튜닝 등의 문제도 있습니다. 아는 길은 내비게이션을 끄고 가는 것처럼 의료 역시 교과적으로 가이드라인이 있지만 의사에 따라 자신만의 치료 선호도가 있습니다. 이런 방식은 반드시 교과서와 일치하는 것은 아니죠.”
생성 AI의 의료 적용 방향성… 그리고 이어지는 시도들
다양한 한계에도 불구하고 생성 AI의 의료 접목 시도는 이어지고 있다. 이와 관련 이 교수는 “이미지,영상 기반 생성 AI는 정확도 개선이 필요한 상황에서 텍스트 기반의 생성 AI가 우선적으로 적용될 것”이라고 전망하며 말을 이어갔다.
“텍스트 중에서도 교과서나 논문 등 검증된 내용 기반으로 학습하는 것이 우선될 겁니다. 실제로 지금 GPT-4는 물론이고 구글의 의료용 생성 AI ‘메드팜2(Med-PaLM2)’ 등은 논문이나 교과서 기반 학습을 진행하고 있어 이미 작동하는 부분이죠. 그 외에 의료적 책임이 적은 일반 의료 상담, 정신과적 상담 등에 바로 적용이 가능하다고 봅니다. 앞서 언급한 최신성, 신뢰성, 보안 등의 이슈는 RAG 시스템을 적극적으로 활용하면 될 듯하고, 그 외 결과물들에 대한 책임을 질 수 없는 분야는 결국 의료인들의 관리가 가능한, 즉 한 번 더 확인할 수 있는 분야에서 우선 개발될 겁니다. 실제로 ‘네이처’에서도 의사가 쓰는 영상 판독이나 진단, 의료 정보에 대한 검색 등에 생성 AI가 쓰일 수 있다고 나오고 있죠. 환자에 대해서는 피검사 결과에 대한 해석, 질병에 대한 설명 등을 챗봇 방식으로 적용될 수 있다고 보고 있고요.”
이어 이 교수는 다시금 ‘의료인이 관리가 가능한 분야’를 강조하며 개인화의 수단으로 EMR(Elctronic Medical Record, 전자 의무기록)을 활용한 방식을 언급했다. 대부분의 병·의원에서 적용하는 프로그램으로 환자를 치료하는 의사의 모든 행동이 다 담겨있는 기록이기 때문이다.
이 교수는 “EMR에는 텍스트 기반의 시계열 정보가 들어가 있고 아직 논문화되지 않은 최신 정보가 있으면서 각 의료진 마다 개인화된 정보들이 담겨 있다”며 “이를 기반으로 생성 AI를 학습시킨다면 치료 알고리즘(Treatment algorithm)을 학습할 수 있고 그것을 기반으로 의무기록 작성, 처방 보조 등을 비롯해 여러가지 치료 가이드라인 등을 만들어 볼 수 있다”고 설명했다.
사실 이러한 시도는 이미 글로벌 빅테크를 중심으로 시도되고 있다. 앞서 언급된 구글의 ‘메드팜2’가 대표적이다. GPT-3.5 이상, GPT-4와 유사한 성능을 보유한 ‘메드팜2’는 미국 의사 시험을 통과할 정도의 성능이 입증됐다. 이 교수 역시 ‘메드팜2’의 성능을 인정했지만, “특화된 제너럴 LLM’에 가깝다”며 아쉬움을 털어 놓기도 했다. 퍼블릭 데이터를 기반으로 학습한 탓에 의학적 대답은 잘하지만 앞서 그가 강조한 ‘개인화’까지는 도달하지 못했기 때문이다.
그렇다면 MS의 자회사인 뉘앙스 커뮤니케이션이 선보이는 의료 생성 AI의 경우는 어떨까? 뉘앙스 커뮤니케이션은 의사와 환자 간 대화 내용을 STT(Speech-to-Text, 음성 텍스트 변환) 기술을 적용, 차트로 만드는 ‘DAX 익스프레스’를 선보였다. 의료진을 위한 AI 기반 임상 노트 앱을 표방하는 이것은 의료진이 최종적으로 내용을 확인해 컨펌을 한다는 면에서도 앞서 이 교수가 언급한 방향성과 일치한다. 그 외에도 MS는 미국 EMR 전문 기업이 3억 500만명의 환자 데이터를 기반으로 만든 ‘Epic’ 시스템에 뉘앙스의 DAX 익스프레스를 탑재한다는 방침을 밝힌 바 있다.
“뉘앙스의 DAX 익스프레스는 Domain specific LLM일까요? 의료에 특화돼 있고 사용자가 의료진으로 특화돼 있다는 것, 각 과 별로 언어 체계를 따로 학습했다는 것 등을 볼 때 Domain specific LLM에 가깝다고 할 수 있습니다. 확실히 MS는 의료 생성 AI에 대해 바른 방향으로 가고 있다고 생각합니다.”
발표 말미, 이 교수는 “국내에서도 텍스트 기반의 의료 생성 AI가 등장했다”며 ‘Ascle AI’를 소개하기도 했다. 서울대 전기·정보공학부 조교수인 도재영 박사가 올해 창업한 신생 스타트업이자 KGIF(한국생성AI파운데이션) 내에서 만들어진 첫 창업 사례기도 하다. 이 교수는 “의료 생성 AI ‘Ascle AI’는 환자와 의사의 대화를 텍스트화하는 뉘앙스가 가진 장점에 더해 RAG 시스템을 통해 벡터DB에서 환자 질의에 대한 답을 찾고 의료진의 검수 후 답을 내는 형식으로 데모가 만들어졌다”며 특징을 설명했다.
“한글과 영어가 섞여 있는 데이터를 정리하도록 했을 때 Ascle AI는 한글을 영어로 변환하고 다시 영어를 한글로 변환하는 방식을 거칩니다. 또 환자와 의사 간 대화를 텍스트로 바꿔 그 내용을 기반으로 차트를 만들어 주죠. 여기까지는 일단 데모로 만들어졌고요. 향후에는 기존의 의무 기록을 합쳐 차트를 작성하는 것까지도 가능하게 할 계획입니다. 여기에 더해 EMR을 기반으로 하기 때문에 특정 질환에 대해 의료진들의 검사나 약 처방 패턴까지 학습할 수 있게 되죠. 그리고 도리어 의료진에게 특정 환자가 왔을 때 ‘이 검사를 할까요?’ ‘이 약을 쓸까요?’라고 제안을 하게 됩니다. 이런 것들이 쌓이고 쌓여 결국 개인화된 LLM 개발이 가능해 지게 되는 거죠. 이 부분은 아무래도 뉘앙스보다 발전된 부분이라 할 수 있습니다.”
즉 Ascle AI는 뉘앙스가 가진 장점을 포함하면서도 EMR을 통한 강화학습으로 검사, 진단 추천, 약 처방 추천 등 구체적인 진료 방법을 제안하며 다양한 상황에 따른 대처법까지 제시하는 의료 생성 AI를 지향하고 있는 셈이다. 이 교수에 따르면 Ascle AI는 서울대 의대에서 데이터 수집 및 PoC(기능검증)을 진행 중이며 올해 내에 다른 대형 병원에도 PoC 진행을 계획하고 있다.