데이터로 이야기를 만들 때 고려해야 할 3가지

뉴스젤리에서 데이터 기획 인턴으로 일한 지도 어느덧 5개월 차에 접어들었습니다. 그동안 다양한 과제와 업무를 맡았지만 많은 시간과 노력을 공들인 업무는 단언컨대 ‘보호수’를 주제로 데이터 스토리텔링 콘텐츠를 기획하는 업무였어요. (아직 보호수 콘텐츠를 보지 않으셨다면 링크를 클릭해주세요!)  

뉴스젤리 블로그를 통해 두 편의 보호수 콘텐츠를 발행한 후 개인적으로 회고의 시간을 가졌는데요. 험난했던 기획 여정의 발자국을 다시 밟아보니, 주제 선정부터 최종 발행까지 단계별로 제가 마주쳤던 어려움은 무엇이고 이를 어떻게 해결해나갔는지가 그려지기 시작했습니다. 그렇게 알게 된 깨달음을 가지고 다음 콘텐츠는 더 잘 만들어봐야겠다는 의지도 불끈 생겼고요 : ) 의미 있던 회고 이후, 저처럼 데이터를 활용해 콘텐츠를 기획하시는 분들에게 조금이라도 도움이 되고자 ‘보호수 콘텐츠, 그 뒷 이야기’를 쓰게 되었어요. 이번 글에서는 제가 ‘보호수’ 콘텐츠를 기획하며 겪었던 고민과 어떻게 해결의 실마리를 찾았는지, 그 시행착오를 전해보려고 합니다.

막막했던 주제 선정, 어떻게 하면 잘 할 수 있을까?

주제 선정은 기획 과정의 첫 출발점으로, 그림에 비유하면 하얀 도화지에 무엇을 그릴지를 결정하는 과정이라 할 수 있는데요.                                             

초반에 저는 개인적인 호기심에서 기획 아이템을 찾았습니다. 일상에서 가진 궁금증을 데이터와 연결해보고자 했어요. 그러나 원대한 야심과 함께 시작한 기획은 늘 벽에 부딪혔습니다. 그 이유를 3가지로 요약해보면 아래와 같은데요.

아무래도 개인적인 호기심은 생각이 다듬어지지 않아 주제가 방대하고 데이터 확보 여부도 불확실한 경우가 많았어요. 또 데이터를 보지 않아도 많은 사람이 이미 알고 있는 주제일 수도 있고요.  

한 가지 예로, ‘가을은 왜 독서의 계절일까?’라는 궁금증이 생겨, 이를 데이터로 확인하고 싶던 적이 있었습니다. 그런데 국민의 도서 대출량 데이터를 찾아서 확인해보니, 가을에 대출량은 오히려 떨어지는 결과를 보였는데요. 이 데이터를 근거로 보면 ‘가을은 왜 독서의 계절일까?’라는 질문조차 성립되지 않는다는 것을 알 수 있습니다. 데이터는 가을이 독서의 계절이라고 이야기해주지 않으니까요. 다른 한편으로, 우리가 가을을 독서의 계절이라 부르는 이유를 우리는 굳이 데이터를 보지 않고서도, 이미 알고 있기도 해요. 가을은 책 읽기 좋은 날씨이니까요! 

다른 예를 하나 더 들어볼까요? 저는 ‘MZ 세대 직장인들은 워라벨을 추구한다’라는 사회적 통념도 데이터로 한번 증명해보고 싶었어요. 그러나 이를 위해서는 워라벨이 등장하게 된 배경, 취업시장의 구조 등 사회 담론 차원에서의 조사가 필요했습니다. 무엇보다 사회·문화 현상을 담고 있는 주제의 경우 한두 개의 데이터로 판단 내리는 것은 논리적 비약이 발생할 수 있기 때문에 주제 범위 선정과 콘텐츠 기획 구체화에 어려움을 겪었는데요. 결국 조사의 범위는 계속해서 넓어지고 주제의 명확성은 떨어졌습니다.

사경을 헤매던 저에게 팀장님은 ‘최근 봤던 뉴스 중 데이터로 더 깊게 파헤쳐보고 싶은 이슈를 찾아보라’는 힌트를 주셨습니다. 그렇게 여러 뉴스를 읽던 도중 바로 보호수를 다룬 뉴스를 마주치게 되었습니다. 

해당 뉴스는 우리나라의 ‘보호수’가 이름에 걸맞은 보호를 받지 못한다고 말하고 있었는데요! 이미 드라마 ‘이상한 변호사 우영우’를 통해 이름을 알고 있던 저는 보호수에 갑자기 관심이 생겼습니다. 나무가 보호수로 선정되는 기준은 무엇이고 어떤 나무들이 지정되어 있을지, 관련 데이터가 있다면 살펴보고 싶었어요.  

반갑게도 산림청에서는 보호수로 지정된 나무의 정보를 담은 데이터를 공개하고 있었습니다. 데이터는 나무의 종류, 크기, 나이 등의 다양한 변수를 포함하고 있어 따로 다른 데이터를 찾을 필요 없이 하나의 데이터 안에서 여러 인사이트를 발견할 수 있었어요. 그렇게 ‘보호수를 데이터로 살펴보자’라는 주제 아이템을 선정하고, 그 안에서 콘텐츠 기획안을 짜내려 갈 수 있게 되었습니다.

지금까지 제가 데이터 스토리텔링 콘텐츠의 ‘주제’를 선정하는 과정을 이야기했는데요! 혹시 저처럼 데이터를 활용해 콘텐츠 기획하시게 된다면, 1) 주제를 최대한 좁게 잡아볼 것을 추천해 드립니다. 주제의 범위가 방대하고 포괄적일수록 어떤 데이터를 활용할지 불확실하기 때문이에요. 적당한 범위의 주제를 선정하기 위해서는 문제의 방향성이 어느 정도 잡혀 있는 사회적 이슈를 찾아보는 방법이 있겠고요.

이외에도 2) 평소 흥미로운 데이터를 먼저 찾아보는 것도 좋은 방법이 됩니다. 저의 경우, ‘보호수’라는 더욱 구체적인 주제를 선정한 뒤에도, 다른 사람들이 잘 모르고 있는 ‘보호수 데이터’를 쉽게 확보할 수 있었기에 보다 수월하게 콘텐츠를 기획할 수 있었어요. 제가 여러분에게 드리는 2가지 팁이 모두 적용되었다고도 볼 수 있어요! 결과적으로는 이 덕분에 콘텐츠를 읽는 사람들에게는 데이터 안에서 발견한 인사이트가 더욱 흥미롭게 느껴졌을 것이라고 생각합니다.

같은 분포, 다른 차트, 이야기에 맞는 시각화는 무엇일까?

주제를 선정하고 수집한 데이터를 탐색하며 기획안을 구상하였다면 이제 본격적으로 시각화 차트를 만들 차례인데요.   
차트를 만드는 것도 사실, 여러 단계에 걸친 기획이 필요합니다. 특히 내가 왜 이 차트를 만들어야 하는지? 차트를 통해 사람들에게 무엇을 말하고 싶은지?를 정하고 이에 맞는 차트를 만들어야 하기 때문이에요.  

한 가지 예로, Part 1에 활용된 ‘보호수의 나이 현황’ 차트가 어떠한 변천 과정을 통해 최종안으로 만들어졌는지 소개해보겠습니다. 보호수 데이터를 탐색하면서 알게 된 인사이트 중 한 가지는 보호수 유형 중 ‘노목(늙고 오래된 나무)이 차지하는 비율이 높다’는 것이었는데요!

저는 구체적으로 보호수의 나이가 어떤 분포를 보이는지를 시각화해보고 싶었습니다. 이를 위해서는 위 이미지 속 초록색 테두리로 감싸진 나이 관련 데이터 변수를 활용해야 했습니다. 이를 활용해 어떤 차트를 만들 수 있었을까요?

1. 어떤 나이대의 보호수가 많을까? – 히스토그램

▴보호수의 나이대별 분포 현황, 2021년 기준(데이터 출처 : 산림청 & 지방행정 인허가 데이터개방 포털)

가장 먼저 ‘어떤 나이대의 보호수가 많을까?’라는 궁금증을 해결하기 위해 생각해낸 차트는 바로 ‘히스토그램’이었습니다. 위 히스토그램의 x축은 보호수의 나이를 100단위로 나눈 구간을, y축은 해당 구간에 속한 나무의 그루 수를 의미합니다. 차트를 통해 어떤 나이대의 나무가 가장 많고 적은지를 한 번에 알 수 있습니다. 201~300살 구간에 가장 많은 나무가 속해있음이 바로 눈에 띄네요.

하지만, 100단위로 나이의 구간을 통일하니 구간마다 그 안에 속한 나무들의 개별적인 나이 분포를 알 수 없다는 단점을 곧 알아챘습니다. 특히 이 차트로는 가장 늙은 나무와 가장 어린나무는 몇 살인지 알 수 없다는 점에서 아쉬움이 많이 남았어요. 

2. 나무 하나하나의 나이가 궁금해! – 바코드 차트

▴보호수의 나이 분포 현황, 2021년 기준(데이터 출처 : 산림청 & 지방행정 인허가 데이터개방 포털)

히스토그램의 아쉬움을 극복하기 위해 대안으로 만든 차트는 바로 ‘바코드 차트’입니다. 이번에는 따로 구간을 나누지 않고 나무 나이 범위인 0~1400으로 x축의 범위를 설정한 후, 각 나무의 나이마다 얇은 막대를 위치시켜 개별적인 분포를 확인할 수 있도록 하였어요. 더불어 저는 사람들이 보호수의 나이를 더욱 직관적으로 파악할 수 있게 하기 위해, 우리나라 역사상 시대 구분 정보를 함께 표기하면 좋겠다는 아이디어를 떠올렸는데요! 이를 위해 x축 아래에 우리나라의 역사 시대별 기간을 표현한 막대를 배치해보았습니다.  

앞서 만들었던 히스토그램과 달리, 바코드 차트는 개별 나이값 마다의 나무의 분포를 보여줍니다. 최고령 나무는 몇 살인지 가장 왼쪽에 위치한 막대를 통해 파악할 수 있고, 반대로 제일 어린 나무 역시 가장 오른쪽에 위치한 막대를 통해 빠르게 알 수 있습니다. 또 x축 전체 범위를 기준으로 막대가 드물게 분포하는 나이 범위는 어디인지, 그렇지 않은 곳은 어디인지 등을 시각적으로 빠르게 확인할 수 있습니다.

바코드 차트를 통해 가장 늙은 나무와 가장 어린나무는 찾을 수 있게 되었으나, 다른 한편으로 차트를 자세히 들여다보고 있으니 곧 해석이 불편한 지점을 곳곳에서 발견할 수 있었습니다. 첫 번째로는 x축의 방향인데요. 축을 보면 나이가 왼쪽에서 1400살부터 시작해 오른쪽으로 갈수록 그 숫자가 줄어듭니다. 이는 아래에 있는 역사 시대와 함께 나이를 이해할 수 있도록 하기 위함이었지만 오히려 자연스러운 시선의 흐름을 방해하는데요. 보통 우리는 좌에서 우로 갈수록 숫자가 커진다고 인식하는데, 위의 차트는 그 반대이기 때문입니다.  

두 번째 문제는 얇은 막대에 있습니다. x축 간격이 나이 한 살 한 살을 의미하다 보니, 같은 나이의 나무를 의미하는 막대는 여러 개이더라도 겹쳐서 표현될 수밖에 없습니다. 즉, 해당 나이 위치에 몇 그루의 나무가 속해있는지 알 수 없다는 것이죠. 나이마다 얼마나 많은 나무가 분포하고 있는지 알 수 있으면서, 최고령/최연소 나무도 찾아볼 수 있는 시각화 차트를 만들 수는 없을까요? 어떻게 만들어야 할까요?

3. 내가 전하고 싶은 메시지를 담은 시각화 – 최종 정착지는 ‘버블 차트’

▴보호수의 나이 분포 현황, 2021년 기준(데이터 출처 : 산림청 & 지방행정 인허가 데이터개방 포털)

두 번의 시행착오를 거쳐 최종적으로 만들게 된 차트는 바로 ‘버블 차트’입니다. ‘바코드 차트’와 마찬가지로 x축을 구간화하지 않고 나무 나이의 개별적인 분포를 보여주는데요. 바코드 차트에서 해석이 불편했던 x축의 방향을 개선하기 위해서 x축에 활용한 데이터의 변수를 바꾸었어요. 바코드 차트에서는 ‘나이’를 x축으로 두었다면, 위 버블차트에서는 올해를 기준으로 나무의 나이를 뺀(2022-[나이]) ‘심어진 연도’라는 파생 변수를 만들어 활용했습니다. 그 결과 차트 아래에 배치한 역사 시대의 연도 정보와 x축의 정보가 일치하여 보다 직관적으로 보호수의 나이별 분포를 파악할 수 있었습니다. 

바코드 차트의 또 다른 한계점은 나무의 분포 정도를 알 수 없다는 점이었습니다. 이번에 만든 버블 차트에서는 동일한 사이즈의 막대를 겹쳐서 표현하지 않고 각 나이에 속한 나무의 수에 따라 원의 크기에 차이를 두어 활용하였습니다. 또한 나이마다 서로 다른 원이 겹치더라도 그 정도를 구분해 파악할 수 있도록 원은 투명도를 낮게 설정하였어요. 

지금까지 제가 ‘보호수 나이 분포’를 보여주기 위해 만든 3가지 시각화 차트를 설명했는데요. 이를 통해 알 수 있는 것은, 나이에 따른 보호수의 분포를 보여준다고 할지라도 구간대별 분포를 보여줄 것인지, 개별 나이값마다의 분포를 보여줄 것인지 등 전달하고자 하는 메시지에 따라 차트의 유형과 그 형태가 달라진다는 것입니다. 주의해야 할 점은 메시지에 적합한 차트 유형 일단 찾았다고 차트 만들기가 끝난 것이 아니라 2차 작업이 필요하다는 점인데요. 독자가 차트를 쉽고 빠르게 이해할 수 있도록 차트 영역 내 주석을 표기하는 등의 부가적인 요소까지도 활용을 고려해보고자 하는 세심한 관심이 더 나은 차트를 만들 수 있게 도와준답니다.

데이터 인사이트를 더 재밌게, 데이터 스토리텔링은 어떻게 할까?

차트 제작을 마무리했다면 데이터 인사이트를 독자에게 효과적으로 전하기 위한 스토리텔링을 콘텐츠에 더하는 시간이 왔습니다. 이제 데이터 스토리텔링 콘텐츠 제작의 마지막 관문인 ‘원고 작성’만 남았는데요. 일반적으로 원고에는 차트 유형, 차트를 구성하는 요소(x·y축)에 관해 설명을 하고, 해당 차트를 통해 알 수 있는 데이터 인사이트를 서술하곤 합니다.  

특히, 우리가 데이터를 시각화하는 목적 중 하나는 바로 ‘시각적 패턴’을 통해 데이터의 의미를 찾기 위함인데요. 차트에서 발견한 시각적 패턴을 토대로 데이터의 추세는 어떤지, 다른 값들과 구별되는 이상값이 있는지, 그 정도는 어떠한지 빠르게 찾을 수 있기 때문입니다.

그런데 어떤 시각적 패턴이 의미 있는 데이터 인사이트라고 생각하다 보니, 차트에서 뚜렷하게 나타나는 패턴, 최솟값·최댓값과 같은 극단 값만을 인사이트로 여기고, 이를 글로 작성하고 있는 저를 발견하게 되었습니다. 막상 써놓은 글을 보니, 이미 차트에서 알 수 있는 부분을 글로 그대로 옮겨 적는 꼴이 되어버렸는데요. 시각화를 통해 발견한 인사이트를 충분히 재미있게 전한다는 느낌보다는 차트를 그저 단순히 ‘읽어주고 있는’ 것 같다는 생각이 들었어요. 요약하자면, 결국 스토리텔링이 약한 글이 되어버린 것이었죠.

시야를 조금 더 넓히니 눈에 바로 보이는 시각적 패턴이나 두드러지는 값이 아니어도 스토리텔링의 소재는 다양했습니다. 이를 글에 담으면 더욱 풍부한 스토리가 만들어질 것이라 생각했는데요. 데이터 스토리텔링 콘텐츠에서 글은 차트의 해석을 돕기도 하지만 차트가 담지 못하는 이야기를 할 수 있는 공간이기 때문입니다. 이를 깨달았던 두 가지의 사례를 보여드리겠습니다.

1. 눈에 바로 보이는 시각적 패턴 말고도, 이야기가 될 수 있어요!

▴보호수의 지정연도 현황, 2021년 기준(데이터 출처 : 산림청 & 지방행정 인허가 데이터개방 포털)

첫 번째 사례는 보호수가 지정된 연도의 현황을 담은 라인 차트에 대한 이야기입니다. 차트를 볼 때 유독 높게 솟은 1982년의 수치가 바로 눈에 띄는데요! 그 점에 집중한다면, 이 차트를 통해 전할 수 있는 이야기는 ‘가장 많은 보호수가 지정된 연도는 1982년이다’ 일거예요.

사실 이 극단 값에만 집중해 차트를 보고 있는 와중에 우리가 놓치고 있는 인사이트가 있는데요! 차트의 초록색 라인이 가로를 기준으로 얼마나 길게 이어져 오고 있는지를 보면, 1982년에 보호수 지정 활동이 대대적으로 이루어졌지만, 현재까지도 꾸준히 진행되고 있다는 사실을 찾을 수 있습니다. 이처럼 독자가 차트를 통해 쉽게 인지할 수 있는 정보 이외에 시각화 차트를 통해 알 수 있는 점을 글에 담으면 더욱 풍부한 인사이트를 근거로 한 스토리텔링 콘텐츠를 만들 수 있습니다.

2. 데이터를 차트로 요약하면서, 사라진 정보를 이야기로 활용할 수 있어요!

▴보호수 수종 현황, 2021년 기준(데이터 출처 : 산림청 & 지방행정 인허가 데이터개방 포털)

두 번째 사례는 보호수로 지정된 나무의 종류를 담은 막대 차트입니다. 차트를 보면 우리나라의 보호수 중 절반 이상이 느티나무라는 점이 먼저 보입니다. 가장 먼저 발견할 수 있는 데이터 인사이트이자, 데이터 스토리텔링 콘텐츠에서 언급할만한 인사이트입니다.

하지만, 시각화 차트는 데이터를 집계해 이를 ‘요약’하는 성격을 가지고 있기 때문에, 자연스럽게 우리가 놓치게 되는 인사이트도 있는데요! 개별값을 하나의 집단에 포함해 요약해 표현하다 보니, 요약된 집단 안에 구체적으로 어떤 값이 포함되는지는 알 수 없기 때문입니다. 

위 차트는 8가지 나무 종류마다의 보호수의 비중을 막대의 길이로 보여주지만, 사실 구체적으로 어떤 세부 수종의 나무가 포함되는지는 알 수 없습니다. 특히, 느티나무 다음으로 높은 비중을 차지하고 있는 ‘기타’ 항목에는 136종의 나무가 포함되어 있는데요. 시각화 차트의 눈에 띄는 패턴에만 집중해 스토리텔링 한다면, 전할 수 없는 “136종만큼 다양한 나무가 보호수로 지정되어 있다”는 이야기를 발견한 것입니다. 앞선 사례와 같이 시각화 차트에 바로 발견하기 어려운 정보를 글로써 전하면 보다 풍부한 이야기를 담은 데이터 스토리텔링 콘텐츠를 만들 수 있습니다.

에디터의 한마디

이번 글에서는 데이터 활용 스토리텔링 콘텐츠 제작의 주제 선정, 차트 기획, 원고 작성 단계별로 겪었던 시행착오에 관해 이야기해보았는데요. 다시 한번 요약해보자면 다음과 같습니다. 

사실 이 세 가지 단계 외에도 기획의 모든 과정이 막힘과 풀림의 연속이었어요. 예를 들어 현재 보호수는 지자체가 관리하고 있어 데이터상 표기하는 방식이 지역마다 달랐는데요. 이로 인해 험난한 데이터 정제 과정을 거치기도 했고, ‘보호수’가 저에게도 낯선 개념이었기 때문에 오랜 시간 동안 많은 양의 조사가 필요했습니다. 그럼에도 불구하고 데이터에서 인사이트를 찾고 이를 통해 이야기를 만들어가는 과정은 즐거움의 연속이었습니다. 특히 ‘보호수’를 공부하면서 나무를 바라보는 시야의 범위가 한 폭 더 넓어진 느낌을 받았어요. : ) 

데이터 활용 스토리텔링 콘텐츠를 제작하면서 데이터를 기반으로 한 스토리텔링의 장점을 알 수 있었는데요! 가장 크게는 데이터를 활용해 사람들이 잘 모르는 새로운 인사이트를 발견해 숨겨진 이야기를 전할 수 있다는 것이었어요. 여러분도 저처럼 데이터를 활용해 흥미로운 이야기를 만들어보는 것은 어떨까요?

본 글의 원문은 여기에서 볼 수 있습니다.

뉴스젤리 브랜드마케팅팀

help@newsjel.ly
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

모르면 곤란한 10월의 트렌드, 좀 더 똑똑하게 보려면?

🧐 우리나라는 정년이 언제더라… 여러분은 ‘은퇴 후 계획’ 세우셨나요? 저는 은퇴라는 주제를 떠올리면 퇴직 후 어떤 삶을 살아가게 될지, 그리고 노후 자금은 얼마나...

M4 프로세서와 맥이 꽤 괜찮은 게임기인 이유

M4 맥스의 발표와 함께 CDPR이 사이버펑크2077을 맥으로 내놓겠다고 밝혔습니다. 맥으로 AAA 급 게임들이 꽤 많이 나오고 있죠. 맥으로 게임하는 것이...

생성 AI 시대, 공짜는 없죠

생성형 인공지능, 온디바이스 AI 그리고 애플 인텔리전스라고 불리는 이 시대의 인공지능 모델은 평생 무한대로 쓸 수 있을까요? 사실 인공지능에 투자하는 비용은 우리가 상상할 수 없을 정도로 막대한 편입니다. GPU나 서버에 들어가는 인프라 비용에 인공지능 모델을 개발하는 비용과 인건비, 전력비, 인공지능 학습을 위한 수많은 형태의 콘텐츠 수급비용까지 어마어마한 비용이 들겠죠.

'M4 프로' 칩으로 더 완벽해진 맥 미니

애플은 오늘 신형 맥 미니를 공개하며 크기를 줄이고 성능을 강화한 M4 및 M4 Pro 프로세서를 탑재한 것이 핵심이라고 밝혔습니다. 이번...