우리 사회는 데이터 경제로 전환 중입니다. 그리고 데이터 관련 개념 역시 전문가만이 아닌, 일반인도 알아야 할 상식이 되었습니다. 이에 데이터 활용을 둘러싼 3가지의 주요 개념을 전합니다.
마이데이터, 데이터 활용 비즈니스의 시작점
데이터(Data)는 데이텀(datum)의 복수 형태로, 그 의미는 추론의 근거 혹은 그 집합을 의미한다.
즉, '무엇'의 근거가 곧 데이터라는 말, 일반적으로 '데이터를 대라'는 표현이 주장에 뒷받침할 자료를 대라는 뜻과 같다.
이러한 데이터의 개념은 사람에게도 똑같이 적용된다.
우리의 이동 경로, 이용 교통 수단, 입출금 내역, 쇼핑 목록 등 자신을 증명할 수 있는 모든 자료가 곧 데이터가 된다.
그리고 개인이 만든 데이터는 전체 디지털 데이터 중 75%에 달한다. 현재 대부분의 데이터 관련 사업은 절반도 되지 않는 데이터를 활용한 비즈니스인 셈이다.
이를 조금 더 적극적으로 활용하기 위한 기반을 마련하자는 게 '마이데이터' 정책이다.
정부의 정의에 따르면, 마이데이터는 '개인이 개인데이터의 활용처 및 활용범위 등에 대해 능동적인 의사결정을 하는 개인데이터 활용 체계'다.
마이데이터 정책은 2018년 6월 4차산업혁명위원회가 마련한 데이터 산업 활성화 전략의 핵심이다.
원활한 개인 데이터 사용만이 성장 속도를 가속할 수 있다는 것.
하지만 우리나라와 같이 데이터 이동권이 보장되지 않아, 개인이 하나의 기업, 하나의 서비스마다 가입하고 정보를 입력하고 이용 동의를 받아야 한다.
그래서 데이터 비즈니스에서는 활용 속도도 느릴 수밖에 없었다.
데이터 이동권이란?
정보주체가 요청하는 경우 제3의 서비스로 기관(업)이 보유한 개인정보를 전송해야 하는 권리로, 국내법에는 데이터이동권이 보장되지 않는다.
그러나 법제도로 가능한 방법을 마련했는데, 그게 마이데이터 사업자 지정을 통한 마이데이터 정책이다.
이제 한 번의 가입과 동의를 통해 정부가 인정하는 산업군에 데이터를 제공한다는 것이다.
양질의 데이터 자료와 처리 속도가 산업 단위로 늘어난 만큼, 데이터를 활용한 비즈니스 역시 빠른 성장이 가능하다.
정부는 국민에게 개인데이터에 대한 관리와 통제 권한을 제공한다고 설명하고 있지만, 보호보다는 활용 측면이 강하다.
전자파일 형태로 마이데이터가 만들어지면 개인은 열람권을 허용하는 형태로, 금융, 모빌리티, 헬스케어 등 산업의 기업이나 기관에 활용 여부를 결정할 수 있다.
예를 들면, 같은 MRI 결과를 보고도 병원마다 또는 의사마다 다른 진단을 받는 환자 사례가 수없이 많다.
그러나 마이데이터는 이러한 격차를 자연스럽게 줄일 수 있다.
게다가 정책화를 통해 그동안 보호받지 못하고 무단으로 사용됐던 개인 데이터 역시 안전망으로 들어올 수 있다.
특히 수익 분배 측면에서, 기업이 개인의 정보를 이용해 이익을 얻었더라도 이용 동의를 받았다는 이유로 적절한 대가를 지급받지 못했다.
이러한 방식으로 국민은 자신의 정보가 어떤 목적으로, 어떻게 활용할 것인지에 대해 적극적으로 참여하게 만든다는 게 정부의 마이데이터 정책 의도라 볼 수 있다.
데이터댐, 18조 짜리 데이터 SOC 사업
'데이터댐'은 이렇게 생성된 마이데이터를 비롯해 흩어져 있거나 새롭게 만들어지는 데이터를 담아내기 위한 사업이다.
마치 댐으로 물을 가둬두고 필요한 때 흘려보내듯, 데이터를 모아두고 자율주행차, 스마트시티, 공공 AI 개발 등 데이터를 필요로 하는 산업에 공급한다는 개념이다.
데이터댐에 담길 데이터셋의 양은 약 14만 2,000개 공공데이터, AI를 위한 학습용 데이터 1,300종이다.
여기서 댐 자체는 데이터를 수집하면서도 동시에 가공, 결합하는 역할도 한다.
그리고 데이터를 각 산업군에 나르는 파이프는 5G 네트워크가 담당한다.
정부는 데이터댐 구축에 내년까지 약 8조 5000억원을, 오는 2025년까지는 약 18조 1000억원의 예산을 투입할 예정이다.
사업 관련 일자리 창출 예상치도 약 38만 9000개에 달한다.
정부가 추산한 2025년까지의 데이터 시장 규모가 약 43조원, 일자리 90만개다. 결국, 데이터댐의 성과가 향후 데이터 정책의 성공을 판가름하는 셈이다.
이를 위해 정부는 5G 네트워크 저변 확충에도 속도를 내고 있다.
지난 15일, 정부는 통신3사와 함께 2024년 상반기까지 농어촌 지역에 5G망 상용화를 완료하겠다고 발표했다.
현재 전국의 5G 무선 기지국 수는 약 14만 2,000곳, 전체 무선 기지국의 10%에 못 미친다.
그마저도 수도권과 지방 도시 중심으로만 배치된 상태다.
또 5G 속도 역시 최고 속도라는 20Gbps의 3% 정도인 656.56Mbps에 그친다.
올 1월에 발표한 고주파 대역을 활성화하고자 하는 5G 네트워크 특화망 역시 데이터댐의 파이프라인의 한 축이 될 것으로 보인다.
데이터 레이크, 호수로 물이 모이듯, 데이터를 모은다
사실 데이터를 축적해두고 필요한 곳에 공급한다는 데이터댐 개념은 이미 '데이터 레이크'라는 이름으로 쓰이고 있었다.
데이터 레이크는 정의된 목적이 없는 다양한 원시 데이터 세트를 저장하는 데이터 리포지토리 유형이다.
리포지터리란?
데이터 집합체가 보관되고 조직적인 방식으로 유지되는 저장 방식을 말한다.
여러 곳에서 하나의 호수로 데이터가 흘러 들어간다는 개념이다.
정제되지 않은, 즉 가공 이전의 데이터를 저장하며, 데이터 사이언티스트는 데이터 레이크에서 필요한 원시 데이터를 액세스할 수 있다.
데이터 사이언티스트는 굳이 데이터를 다른 시스템으로 이동시킬 필요 없이 데이터 레이크 안에서 자신이 원하는 방식으로 분석하고 결과를 이끌어 낼 수 있다.
그래서 데이터레이크는 대규모 엔터프라이즈 환경에서의 주요 데이터 관리 전략의 하나다.
또 데이터 수집 시점부터 향후 해당 데이터를 어디에 사용할 수 있는지 예측 가능하다.
데이터댐와 비교하자면, 데이터댐은 정부가 가공과 처리를 거쳐 데이터를 제공하지만, 데이터 레이크는 기업이 분석이 필요할 때 데이터를 수집하고 변환해 활용한다는 특징이 있다.
다만, 데이터의 즉각적인 액세스를 위해서 데이터 레이크의 유지 관리가 필요하다.
데이터 레이크는 비정형, 반정형, 정형 데이터 등 조직 내 모든 데이터가 쌓이기 때문에 데이터 거버넌스 관리가 핵심이 된다.
그래서 데이터 레이크는 확장이 어려운 기존의 데이터 스토리지 시스템이 아닌, 클라우드 상에서 위치하며, 데이터가 저장될 때에는 언제든지 액세스할 수 있도록 메타데이터로 보관된다.
만약 유지 관리가 되지 않을 경우, 데이터 활용은커녕 액세스 불가능한 데이터만 쌓여 데이터 늪(data swamp)이 될 수 있다.