'데이터' 필수 개념, 3가지만 알고 가자

우리 사회는 데이터 경제로 전환 중입니다. 그리고 데이터 관련 개념 역시 전문가만이 아닌, 일반인도 알아야 할 상식이 되었습니다. 이에 데이터 활용을 둘러싼 3가지의 주요 개념을 전합니다.

 

마이데이터, 데이터 활용 비즈니스의 시작점

데이터(Data)는 데이텀(datum)의 복수 형태로, 그 의미는 추론의 근거 혹은 그 집합을 의미한다.

즉, '무엇'의 근거가 곧 데이터라는 말, 일반적으로 '데이터를 대라'는 표현이 주장에 뒷받침할 자료를 대라는 뜻과 같다. 

이러한 데이터의 개념은 사람에게도 똑같이 적용된다.

우리의 이동 경로, 이용 교통 수단, 입출금 내역, 쇼핑 목록 등 자신을 증명할 수 있는 모든 자료가 곧 데이터가 된다.

그리고 개인이 만든 데이터는 전체 디지털 데이터 중 75%에 달한다. 현재 대부분의 데이터 관련 사업은 절반도 되지 않는 데이터를 활용한 비즈니스인 셈이다.

이를 조금 더 적극적으로 활용하기 위한 기반을 마련하자는 게 '마이데이터' 정책이다. 

정부의 정의에 따르면, 마이데이터는 '개인이 개인데이터의 활용처 및 활용범위 등에 대해 능동적인 의사결정을 하는 개인데이터 활용 체계'다.

 

(출처: 한국데이터산업진흥원)
(출처: 한국데이터산업진흥원)

 

마이데이터 정책은 2018년 6월 4차산업혁명위원회가 마련한 데이터 산업 활성화 전략의 핵심이다.

원활한 개인 데이터 사용만이 성장 속도를 가속할 수 있다는 것. 

하지만 우리나라와 같이 데이터 이동권이 보장되지 않아, 개인이 하나의 기업, 하나의 서비스마다 가입하고 정보를 입력하고 이용 동의를 받아야 한다.

그래서 데이터 비즈니스에서는 활용 속도도 느릴 수밖에 없었다.

 

데이터 이동권이란?

정보주체가 요청하는 경우 제3의 서비스로 기관(업)이 보유한 개인정보를 전송해야 하는 권리로, 국내법에는 데이터이동권이 보장되지 않는다.

 

그러나 법제도로 가능한 방법을 마련했는데, 그게 마이데이터 사업자 지정을 통한 마이데이터 정책이다.

이제 한 번의 가입과 동의를 통해 정부가 인정하는 산업군에 데이터를 제공한다는 것이다.

양질의 데이터 자료와 처리 속도가 산업 단위로 늘어난 만큼, 데이터를 활용한 비즈니스 역시 빠른 성장이 가능하다. 

정부는 국민에게 개인데이터에 대한 관리와 통제 권한을 제공한다고 설명하고 있지만, 보호보다는 활용 측면이 강하다. 

 

마이데이터의 종류: 개인 속성 데이터, 자발적 데이터, 관찰된 데이터, 추론된 데이터, WEF 2014, 방통위

 

전자파일 형태로 마이데이터가 만들어지면 개인은 열람권을 허용하는 형태로, 금융, 모빌리티, 헬스케어 등 산업의 기업이나 기관에 활용 여부를 결정할 수 있다.

예를 들면, 같은 MRI 결과를 보고도 병원마다 또는 의사마다 다른 진단을 받는 환자 사례가 수없이 많다.

그러나 마이데이터는 이러한 격차를 자연스럽게 줄일 수 있다. 

게다가 정책화를 통해 그동안 보호받지 못하고 무단으로 사용됐던 개인 데이터 역시 안전망으로 들어올 수 있다.

특히 수익 분배 측면에서, 기업이 개인의 정보를 이용해 이익을 얻었더라도 이용 동의를 받았다는 이유로 적절한 대가를 지급받지 못했다.

이러한 방식으로 국민은 자신의 정보가 어떤 목적으로, 어떻게 활용할 것인지에 대해 적극적으로 참여하게 만든다는 게 정부의 마이데이터 정책 의도라 볼 수 있다.

 

데이터댐, 18조 짜리 데이터 SOC 사업

'데이터댐'은 이렇게 생성된 마이데이터를 비롯해 흩어져 있거나 새롭게 만들어지는 데이터를 담아내기 위한 사업이다.

마치 댐으로 물을 가둬두고 필요한 때 흘려보내듯, 데이터를 모아두고 자율주행차, 스마트시티, 공공 AI 개발 등 데이터를 필요로 하는 산업에 공급한다는 개념이다.

데이터댐에 담길 데이터셋의 양은 약 14만 2,000개 공공데이터, AI를 위한 학습용 데이터 1,300종이다.

여기서 댐 자체는 데이터를 수집하면서도 동시에 가공, 결합하는 역할도 한다.

그리고 데이터를 각 산업군에 나르는 파이프는 5G 네트워크가 담당한다.

정부는 데이터댐 구축에 내년까지 약 8조 5000억원을, 오는 2025년까지는 약 18조 1000억원의 예산을 투입할 예정이다.

사업 관련 일자리 창출 예상치도 약 38만 9000개에 달한다.

정부가 추산한 2025년까지의 데이터 시장 규모가 약 43조원, 일자리 90만개다. 결국, 데이터댐의 성과가 향후 데이터 정책의 성공을 판가름하는 셈이다.

 

이를 위해 정부는 5G 네트워크 저변 확충에도 속도를 내고 있다. 

지난 15일, 정부는 통신3사와 함께 2024년 상반기까지 농어촌 지역에 5G망 상용화를 완료하겠다고 발표했다.

현재 전국의 5G 무선 기지국 수는 약 14만 2,000곳, 전체 무선 기지국의 10%에 못 미친다.

그마저도 수도권과 지방 도시 중심으로만 배치된 상태다.

또 5G 속도 역시 최고 속도라는 20Gbps의 3% 정도인 656.56Mbps에 그친다.

올 1월에 발표한 고주파 대역을 활성화하고자 하는 5G 네트워크 특화망 역시 데이터댐의 파이프라인의 한 축이 될 것으로 보인다.

 

특화망 활용(출처: 과기정통부)

 

데이터 레이크, 호수로 물이 모이듯, 데이터를 모은다

사실 데이터를 축적해두고 필요한 곳에 공급한다는 데이터댐 개념은 이미 '데이터 레이크'라는 이름으로 쓰이고 있었다.

데이터 레이크는 정의된 목적이 없는 다양한 원시 데이터 세트를 저장하는 데이터 리포지토리 유형이다.

 

리포지터리란?

데이터 집합체가 보관되고 조직적인 방식으로 유지되는 저장 방식을 말한다.

 

여러 곳에서 하나의 호수로 데이터가 흘러 들어간다는 개념이다.

정제되지 않은, 즉 가공 이전의 데이터를 저장하며, 데이터 사이언티스트는 데이터 레이크에서 필요한 원시 데이터를 액세스할 수 있다.

데이터 사이언티스트는 굳이 데이터를 다른 시스템으로 이동시킬 필요 없이 데이터 레이크 안에서 자신이 원하는 방식으로 분석하고 결과를 이끌어 낼 수 있다.

그래서 데이터레이크는 대규모 엔터프라이즈 환경에서의 주요 데이터 관리 전략의 하나다.

또 데이터 수집 시점부터 향후 해당 데이터를 어디에 사용할 수 있는지 예측 가능하다.

데이터댐와 비교하자면, 데이터댐은 정부가 가공과 처리를 거쳐 데이터를 제공하지만, 데이터 레이크는 기업이 분석이 필요할 때 데이터를 수집하고 변환해 활용한다는 특징이 있다.

 

(출처: AWS)

 

다만, 데이터의 즉각적인 액세스를 위해서 데이터 레이크의 유지 관리가 필요하다. 

데이터 레이크는 비정형, 반정형, 정형 데이터 등 조직 내 모든 데이터가 쌓이기 때문에 데이터 거버넌스 관리가 핵심이 된다.

그래서 데이터 레이크는 확장이 어려운 기존의 데이터 스토리지 시스템이 아닌,  클라우드 상에서 위치하며, 데이터가 저장될 때에는 언제든지 액세스할 수 있도록 메타데이터로 보관된다.

만약 유지 관리가 되지 않을 경우, 데이터 활용은커녕 액세스 불가능한 데이터만 쌓여 데이터 늪(data swamp)이 될 수 있다.

 

 

석대건 기자

daegeon@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

글로벌 혁신 허브로 주목 받는 싱가포르, 한국 스타트업이 제대로 활용하는 전략은?

수년 째 이어지고 있는 스타트업 투자 혹한기에 더해 고물가·고금리 부담이 더해지며 국내 스타트업 생태계의 위기는 커지고 있다. 이에 정부는 최근 스타트업계 지원을 대폭 확대하고 모태펀드 출자를 스타트업코리아, 글로벌, M&A 등 핵심 출자 분야의 혁신 스타트업 투자에 집중한다는 방침을 밝혔다. 주목되는 변화 중 하나가 국외 창업 스타트업 지원이다. 이처럼 국외 창업 스타트업에 대한 지원이 늘어나는 상황에서 주목해야 할 해외 진출 전략은 무엇일까? 이에 대한 답을 최근 스타트업얼라이언스가 진행한 ‘아시아의 한국인’ 행사에서 찾아봤다.

오픈AI ‘샘 알트먼’이 ‘미국 정치판’을 길들인 방법

오픈AI의 CEO 샘 알트먼이 매력적인 언변과 교묘한 로비활동으로 지구상에서 가장 강력한 사람 중 하나가 되고 있다. 소셜 미디어 산업을 대표하는 메타의 마크 저커버그를 매우 공격적으로 비판했던 미국 정치계가 어쩐 일인지 AI 산업을 대표하는 알트먼에게는 부드럽다. 알트먼은 미국 정치판을 어떻게 길들인 것일까.

하루앞둔 미 대선···빅테크들, 트럼프에 대한 전략적 모호성 이면엔

실리콘 밸리 빅테크 리더들의 친 트럼프 분위기가 트럼프의 잠재적 보복 우려 때문인지, 정부사업 계약으로 보상받길 원해서인지인지, 아니면 해리스 민주당 후보가 승리할 경우 추가 감독 및 규제를 받을까 봐 경계해서인지를 단언할 수는 없다. 하루앞으로 다가온 미 대선 후보에 대한 빅테크 CEO들의 ‘전략적 모호성의 이면을 들여다 봤다.

[인터뷰] 방은혜 밀리의서재 AI서비스본부장 “AI를 접목한 플랫폼 기반 독서 경험 강화, 기대하셔도 좋습니다”

2016년 등장한 밀리의서재는 오랜 세월 오프라인에 머물고 있던 사람들의 독서 습관을 플랫폼으로 확장하며 독서 경험의 혁신을 이뤄냈다. 그리고 지금, 밀리의서재는 또 한 번의 혁신을 시도하고 있다. ‘AI서비스본부’를 신설하고 자사 플랫폼에 AI 기술 접목을 본격화한 것이다. 이에 테크42는 AI 격변이라는 파고에 맞서 정체성을 지켜가며 조용한 혁신을 시도하고 있는 밀리의서재가 나아갈 방향과 전략을 방은혜 AI 서비스본부장을 만나 직접 들어봤다.