숨만 쉬어도 데이터가 실시간으로 쌓이는 요즘, 데이터를 가장 쉽게 활용해 볼 수 있는 방법인 데이터 시각화에도 많은 분들이 관심을 가지고 계실 텐데요. 막상 시각화를 하려고 하니, ‘어떤 툴을 써야 하지?’, ‘무슨 그래프를 그릴 수 있는 거야?’, ‘툴을 배울 시간은 없는데, 빠르고 쉽게 차트를 그릴 수 있는 방법은 없을까?’ 등의 고민을 하게 되실 것 같아요.
아마 여러분은 보통 차트를 그릴 때 엑셀이나 파워포인트를 사용하셨을 텐데요. 엑셀, 파워포인트 말고도 차트를 그릴 수 있는 다양한 시각화 툴이 있답니다! 하지만 시각화 툴은 종류가 많고, 경우에 따라 기능이 너무 다양해서 복잡하게 느껴질 때도 있어요. 이렇게 어려움을 겪는 분들을 위해 뉴스젤리의 데이터 시각화 툴 ‘데이지 (DAISY)’로 쉽고 빠르게 차트를 그리는 방법을 소개해 드리려고 합니다.
데이지(DAISY)는 뉴스젤리가 자체 개발한 시각화 솔루션입니다. 별도의 파일 설치 없이 웹 사이트에서 누구나 쉽게 차트를 제작할 수 있는 툴인데요! 데이지의 업데이트 버전인 데이지 베이직 (DAISY Basic)은 실무자를 위한 시각화 툴로, 현재 뉴스젤리의 홈페이지에 데모 사이트가 공개되어 있어 바로 사용해 볼 수 있습니다. 어떻게 하면 쉽고 빠르게 차트를 만들 수 있는지 데이지 베이직을 통해 알아볼까요?
차트를 제작하기에 앞서 데이터가 필요한데요! ‘서울 열린데이터광장’의 ‘2023년 4월 서울시 지하철 호선별 역별 승하차 인원 정보’ 데이터를 사용해 보겠습니다. 데이터 추가 버튼을 클릭한 뒤 차트를 그릴 데이터를 업로드했어요.
데이터가 준비되었다면, 시각화하고 싶은 변수를 선택해 화면 상단의 변수 영역에 드래그 앤 드롭으로 가져다 둡니다. 범주형 변수는 dimensions (차원값) 칸에, 수치형 변수는 measures (측정값) 칸에 드래그하면 자동으로 차트가 생성됩니다. 위 화면에서는 범주형 변수인 ‘노선명’과 수치형 변수인 ‘승차 총 승객수’를 선택했는데요! 4월 동안 승차한 승객수의 합계를 지하철 노선별 막대 차트로 비교해 볼 수 있습니다.
기본적으로 차트의 수치형 변수는 합계로 계산되는데, 혹시 다른 계산 방식으로 사용하고 싶다면 어떻게 해야 할까요? 데이지에서는 따로 데이터를 정제하지 않고도 데이터가 집계되는 방식을 바꿀 수 있습니다. 변수 옆 화살표를 누르면 합산, 최소, 최대, 평균, 중앙값 총 5개 값에 따라 달라지는 차트를 조회할 수 있는데요! ‘승차 총 승객수’의 화살표를 클릭해 ‘평균’을 선택하면 지하철 노선별로 4월 동안의 일평균 승객수를 차트로 확인할 수 있습니다.
또, 도형의 색, 축 이름의 유무 등 부가 요소를 변경하면서 더욱 다양한 스타일의 차트를 만들 수 있는데요! 화면 우측의 시각화 설정 메뉴에서는 막대나 선 등 시각화 요소의 색깔, 범례의 위치, 축 값의 글씨 크기까지 마우스 클릭만으로 자유로운 조정이 가능합니다. 이런 옵션 값들이 차트의 가독성을 높이는 데 도움이 되기도 해요.
시각화 솔루션 데이지의 장점은 시각화 추천 기능을 활용해 하나의 데이터로도 다양한 유형의 시각화 차트를 쉽게 만들 수 있다는 점인데요. 데이지는 데이터 구조에 맞는 시각화 유형을 추천해 주고, 사용자는 한 번의 클릭만으로 시각화 유형을 빠르게 바꿔 볼 수 있습니다. 막대 차트, 라인 차트, 영역 차트, 파이 차트 등 제작 목적에 따라 다양한 차트를 선택할 수 있어요!
제대로 된 시각화 분석을 위해서는 데이터의 종류와 시각화의 목적에 따라 적절한 차트 유형을 선택해 사용하는 것이 중요합니다. 그런데 이 차트 유형이라는 것이 생각보다 다양해서 선택의 기로에 놓일 수 있는데요. 여러 유형의 차트 중 어떤 것을 선택해야 할지 고민되시나요? 고민 해결을 위해 지금부터 차트 제작의 주요 목적과, 그 목적에 맞는 차트 유형은 무엇이 있는지 알아보도록 하겠습니다.
시각화 차트를 사용하는 목적은 크게 ① 비교, ② 변화, ③ 구성(비율/비중), ④ 관계 총 4가지로 나눌 수 있는데요. 통계청의 인구, 경제 관련 공공데이터를 활용해 각 목적에 적합한 차트 유형에 대해 살펴보겠습니다.
개별 데이터의 수치 하나는 혼자 있을 때는 의미가 없지만, 다른 데이터와 ‘비교’를 하면 유의미한 인사이트를 발견할 수 있습니다. 예를 들어, 우리나라의 2021년 총 가구수가 2,144만이라는 사실을 데이터로 확인했다고 가정해 보겠습니다. 2,144만 가구수는 많은 것일까요, 적은 것일까요? 이와 같은 판단을 위해서는 전년도 데이터, 다른 나라 데이터 등 여타 데이터와 ‘비교’가 필수적입니다.
비교를 쉽게 할 수 있는 시각화 방법 중 가장 대표적인 것은 항목별 측정값을 시각화 요소의 크기로 표현하는 것인데요! 시각화 유형으로 막대 차트, 그룹 막대 차트, 버블 차트 등이 있습니다.
데이터 사례로 알아볼까요? 통계청이 발표한 ‘2022 통계로 보는 1인 가구’ 자료에 따르면, 2021년 기준 1인 가구의 비율은 전년 대비 무려 7.9%가 증가한 33.4%로 가파른 증가 추세를 보이고 있는데요. 그렇다면 1인 가구는 어느 연령대에서 가장 큰 비중을 차지하고 있을까요? 이를 알아보기 위해 ‘2021년 가구주 연령 및 가구원수별 가구수’ 데이터를 그룹 막대 차트로 시각화했습니다.
위 막대 차트에서는 가구원수별 가구수가 가구주 연령대별 그룹으로 구분되어 있는데요! 막대의 길이를 한 차트 내에서 비교해 보면서, 각 수치를 따로따로 보았을 때는 알 수 없는 인사이트를 도출할 수 있습니다. 먼저 가구주 연령이 20대인 그룹의 막대만 살펴볼까요? 20대 그룹은 1인 가구의 수가 압도적으로 높은 것을 확인할 수 있습니다. 여기서 나아가 다른 연령대 그룹과 비교해 보면, 유독 20대 그룹에서 1인 가구 이외의 가구원수별 가구수가 적은 것을 알 수 있어요.
20대 그룹의 가구원수별 가구수를 버블 차트로 표현해 보면 어떨까요?
위 버블 차트에서는 원의 크기와 색을 기준으로 가구원수별 가구수의 크기를 나타냈는데요! 원의 크기가 클수록, 색이 진할수록 가구수가 많다는 것을 의미합니다. 이 차트를 통해서 20대는 전체 연령대 중 1인 가구의 비율이 가장 높은 것을 다시 한번 확인할 수 있습니다.
시간 단위로 데이터가 생성되는 경우에는 시간에 따라 값이 어떻게 변화하는지 궁금해지기 마련인데요. 시간에 따라 전체 가구 중 가구원수별 비중의 변화를 보고 싶다면, 어떤 유형의 차트를 활용하는 것이 좋을까요? 이 경우 라인 차트, 영역 차트로 시각화할 수 있습니다. 라인 차트로 데이터 변화 추이를 확인해 볼까요?
위 라인 차트는 2017년부터 2021년까지 5년간의 가구원수별 비중 변화를 나타낸 것입니다. 각 라인의 높낮이 변화를 통해 추이를 파악하는 것인데요. 3인, 4인 가구 비중은 줄어들고 있는 데 반해 1인 가구 비중은 점점 증가하고 있는 것을 볼 수 있어요.
전체 데이터의 범위에서 특정 항목이 차지하는 비중이 얼마나 되는지 보고 싶다면, 전체 영역을 항목별 측정값 크기에 비례하게 나누어서 시각화하는 파이 차트, 도넛 차트, 트리맵 차트, 와플 차트 등을 사용하는 것이 좋습니다. 이번에는 전체 인구 중 유소년, 생산 연령, 고령 인구가 차지하는 비중을 파이 차트로 시각화해 보았습니다.
위 파이 차트는 각각 1960년, 2023년의 연령 그룹별 인구 비율을 나타낸 것인데요. 연령 그룹별 인구 비율에 따라 원을 나눈 조각 면적의 크기를 다르게 표현했습니다. 좌측의 1960년 차트에서는 유소년(0~14세), 생산 연령(15~64세)의 조각이 주를 이루고, 고령 인구(65세 이상) 조각의 면적은 매우 작습니다. 하지만 우측의 2023년 차트에서는 생산 연령(15~64세)의 조각이 압도적으로 큰 것과 동시에 고령 인구(65세 이상)의 조각이 유소년(6~10세)의 조각보다 큰 것을 확인할 수 있어요. 이를 통해 지난 약 60년 사이 고령화가 심해졌다는 인사이트를 확인할 수 있습니다.
그렇다면 현재 인구의 연령대별 구성 비율을 조금 더 자세히 살펴볼까요? 이를 알아보기 위해 2023년 5월 기준 연령별 인구 현황을 트리맵 차트로 나타내 보았습니다.
트리맵 차트는 네모 조각 면적의 크기와 색의 진하기를 기준으로 데이터의 크기를 표현하는데요. 위 트리맵 차트에서는 네모 조각이 클수록, 색이 진할수록 인구수가 많은 연령대라고 해석할 수 있습니다. 전체에서 가장 조각이 크고 색깔이 진한 50대와 40대의 인구수가 가장 많고, 60대가 뒤를 이어 인구수가 많은 연령대라는 것을 직관적으로 확인할 수 있어요.
데이터 간의 관계를 알고 싶을 때에는 어떤 시각화 차트를 사용할 수 있을까요? 고도의 데이터 분석을 하지 않더라도 데이터 간의 관계를 효과적으로 파악할 수 있는 시각화 차트는 없을까요?
이때 사용할 수 있는 대표적인 시각화 유형으로는 산점도, 평행좌표, 네트워크 시각화 등이 있는데요! 산점도는 수치형 변수 두 개의 상관관계를 시각적으로 보여줄 때 주로 활용되고, 평행 좌표는 다수의 수치형 변수 데이터를 하나의 시각화 차트로 비교할 때, 그리고 네트워크 시각화는 인물 간 관계 등을 보여줄 때 유용합니다. 먼저 수치형 변수인 경제 성장률과 소비자 물가 상승률의 관계를 산점도로 확인해 보겠습니다.
위 차트는 2012년부터 2022년까지의 경제성장률과 소비자물가상승률을 나타낸 산점도인데요! x축은 소비자물가상승률, y축은 경제성장률으로 구성되어 있고, x축과 y축 데이터 값을 좌표로 삼아 차트 영역 내 위치에 각 연도를 의미하는 점을 표현합니다. 점이 분포하는 형태를 바탕으로 두 지표 간 관계를 파악할 수 있는데요. 점이 분포한 형태가 왼쪽 하단에서 오른쪽 상단으로 이어지는 대각선을 띄고 있어, 경제성장률이 높을수록 소비자물가상승률 또한 높아진다고 해석할 수 있습니다. 실제로 경제 성장세가 강해질 경우 소비자들의 상품 수요가 늘어나고, 이에 따라 물가가 상승해 경제 성장과 물가 상승 간 양의 관계가 나타난다고 해요.
위 산점도에서는 수치형 변수 2개의 관계를 파악해 봤는데요. 3개 이상의 수치형 변수 간 관계를 파악하고 싶다면 어떻게 해야 할까요?
3개 이상의 수치형 변수 간 관계를 파악하는 데에는 평행좌표 시각화를 활용해 볼 수 있습니다. 위 차트는 2021년 기준 서울, 부산, 대구, 인천, 광주 총 5개 지역의 교통 지표를 활용한 평행좌표인데요! 좌측에서부터 수치형 변수인 인구 수, 자동차 등록대수, 교통사고 건수를 y축으로 나타내고, 시도별 데이터의 위치를 연결해서 선으로 표현했습니다. 각 지역마다 선이 하나씩 있다고 보면 이해하기 쉽습니다.
차트의 시각적 패턴을 확인해 볼까요? 가장 왼쪽 y축(인구수)과 중앙의 y축(자동차 등록대수) 사이의 라인 기울기를 보면 인구수가 많을수록 자동차 등록대수가 높다는 것을 알 수 있습니다. 중앙의 y축(자동차 등록대수)와 오른쪽 y축(교통사고건수) 사이의 라인 기울기를 통해 자동차 등록대수와 교통사고 건수가 반드시 비례하는 것은 아니라는 것도 파악할 수 있어요! 또, 평행 좌표에서는 수치형 변수를 표현하는 y축의 순서를 바꿔보면서 다양한 데이터 간의 관계를 파악할 수 있다는 것이 큰 장점이라고 할 수 있습니다.
지금까지 쉽고 빠르게 차트를 그리는 방법부터 제작 목적에 따라 분류되는 4가지의 차트 유형까지 알아보았습니다. ‘비교’ 유형에서는 항목별 측정값의 비교를 통해서 인사이트를 도출했고, ‘변화’ 유형에서는 시간에 따른 데이터의 변화를 파악할 수 있었습니다. ‘구성’ 유형에서는 특정 항목이 차지하는 비중을, ‘관계’ 유형에서는 데이터 간의 관계를 분석할 수 있었죠!
차트 유형을 소개하면서 제작한 차트는 모두 뉴스젤리의 데이지 베이직(DAISY BASIC)을 사용하였는데요! 데이지 베이직(DAISY BASIC)은 어렵고 복잡한 기능을 제외하고 데이터 시각화에 꼭 필요한 기능만 담은, 누구나 쉽게 사용할 수 있는 시각화 툴입니다. 글에서 언급했듯이 다양한 시각화 유형과 자유로운 차트 설정 기능을 제공할 뿐만 아니라, 이미지와 텍스트를 함께 입력할 수 있는 레이아웃을 제공하기 때문에 보고서까지 제작할 수 있어요! 또, 다른 사용자들이 제작한 차트가 공유되기 때문에, 이미 만들어진 차트를 열람해 보며 시각화 아이디어를 얻을 수도 있습니다. (현재 데이지 베이직 데모 사이트는 누구나 무료로 사용해 볼 수 있지만, 게재하신 데이터가 웹에 공개되는 만큼 보안에 이슈가 있는 데이터는 사용에 주의해 주시길 바랍니다!)
이번 글에서는 데이지 베이직을 활용해 시각화 차트를 소개했지만, 사람들이 많이 사용하는 기본적인 시각화 유형이기에 어떤 시각화 툴을 사용하더라도 해당 유형의 차트를 만들어 보실 수 있을 거예요! 하지만 우리가 기억해야 할 점은 무엇보다도 목적에 맞는 시각화 차트를 활용하는 것이 가장 효과적이라는 점이겠죠! 이 글에서 언급한 사용 목적별 시각화 유형을 기억해 두면, 다양한 시각화 차트 중 어떤 것을 사용해야 할지 고민하는 시간이 줄어들 거예요! 이번 글이 ‘시각화 차트는 어떻게 만들고, 어떤 유형이 적합한 걸까?’에 대한 고민을 가져 보셨던 많은 분께 도움이 되었길 바라봅니다.
소셜댓글