본문 바로가기

시각화 이야기

더 나은 데이터 시각화를 위해 알아야 할 데이터 시각화의 전주의적 속성

 

데이터 시각화가 중요한 이유

앤스콤의 4가지 그룹 (Anscombe's Quartet)

 

데이터 시각화에 대한 활발한 연구가 있기 전에는 수치적 계산이 정확하고 그래프는 대략적이라는 인식이 만연했습니다. 이러한 통념에 대해서 영국의 통계학자 프랭크 앤스콤(Frank Anscombe)은 정면으로 맞서 그렇지 않다는 것을 보여줬습니다.

지금은 통계 및 데이터 관련한 공부를 한 사람들이라면 한 번쯤 접해봤을 앤스콤의 4가지 그룹에 대한 이야기입니다. 표로 주어진 4개의 Data Set의 평균과 표준편차의 값은 같습니다. 게다가 입력과 출력의 상관계수는 모두 약 0.5이고 추세선 또한 거의 같습니다.


앤스콤이 자신의 논문에서 보여준 것처럼 데이터에 대한 해석을 할 때, 수치적인 부분도 중요하지만 인간의 인지적인 특성을 고려했을 때 시각화를 통해 보여주는 것이 데이터에서 통찰을 얻어내는 것이 중요하다고 말하고 있습니다.
( 실제 수치가 나와있는 표로만 보면 데이터셋이 어떤 추세를 갖고 있는지는 알기 어렵습니다. )

 

 

데이터 시각화의 방법


기본적으로 데이터를 시각화 함에 있어서 크게 두 가지 요소를 고려하여 시각화를 진행할 수 있습니다.
그 중 첫 번째가 데이터의 유형이고 두 번째가 전주의적 특성입니다.

 

 

시각화 요소 1 - 데이터의 유형 (Data Types)


데이터의 유형은 그 것을 나누는 기준에 따라 최근에는 여러 가지 방법으로 분류가 되곤 하는데, 데이터 시각화를 설명함에 있어서는 크게 두 가지로 분류를 하고자 합니다.


1. 정량적 데이터 ( Quantitative Data )
우리가 흔히 접할 수 있는 몸무게, 키처럼 정수나 실수로 표현되는 데이터들 입니다. 예를 들면 하루 동안의 기온 데이터라면 정량적+연속형 데이터가 되는 것이고, 이 것을 편의상 소수점을 제외하고 이용하게 된다면 정량적+이산형 데이터로 볼 수도 있는 것입니다.

2. 정성적 데이터 ( Qualitative Data )
세부적으로 순서형, 논리형 등등 다향하게 분류될 수도 있고 그것을 잘 표현하는 시각화 방법도 가지각색 존재합니다. 예를 들어 1년을 12달로 구분하는 월은 정석적+순서형 데이터이고, 한 지역을 동으로 구분한다고 하는 경우 정성적+비순서형 데이터가 될 수 있습니다.

데이터 시각화에 있어서 데이터 유형이 중요한 이유는 시각화를 통해서 보다 더 효과적인 정보전달을 하기 위해서 이다. 이는 전주의적 특성과 버무려 시각화를 할 때 독자를 위해서 고려해봐야 할 사항입니다.

 

 

소시각화 요소 2 - 시각화의 전주의적 특성 (Pre-attentive Properties)


두 번째로 알아볼 것은 데이터의 전주의적 특성입니다. 전주의적이라고 하면 사전적으로는

알기 쉽게 이야기하면 사람이 어떤 것을 인지하기 전에 미리 알아차릴 수 있게 도와주는 속성 정도로 생각하면 됩니다.

그림과 함께 대표적인 전주의적 속성 12가지를 소개합니다.

데이터 시각화 전주의적 특성 ( Pre-attentive Properties )

위 12가지 이외에도 선으로 된 도표를 그릴 때는 선의 두께도 전주의적 특성이 될 수 있고, 데카르트 좌표계(x-y 좌표계)를 이용한 도표를 그리는 경우 원점의 위치 등도 전주의적 특성이 될 수 있습니다.

전주의적 특성을 잘 보여주는 예로는 인터넷 커뮤니티에서 종종 볼 수 있는 '8 속에 9, 6 찾기' 같은 것들이 있습니다.
아래의 그림을 보자면, 아래의 그림중에서 8이 아닌 숫자의 개수를 말할 수 있으시겠습니까?? 아마도 눈에 힘을 주고 찾아도 한참이 걸릴 것이고, 흰색 배경의 촘촘한 까만색 동그라미가 주는 착시로 인해서 매우 어지럽기까지 할 것입니다.
( 추천하진 않지만, 시간이 많으시다면 찾아보시라 )

하지만 전주의적 속성을 더해서 본다면 답은 간단해집니다. 먼저 색조를 더하여 8이 아닌 숫자를 표시했고, 그다음에는 8이 아닌 숫자 중에서도 8보다 큰 경우 빨간색, 작은 경우 파란색을 이용해 표시하였습니다.

이처럼 전주의적 속성을 알고 사용하면 시각화에 있어서 내가 표현하고자 하는 부분을 더 강조하여, 시각화를 받아들이는 상대에게 보다 빠르고 정확하게 전달이 가능합니다.

데이터가 넘쳐나고 그 속에서 통찰을 찾아내야 하는 시대 속에서 데이터 시각화를 통한 스토리 텔링은 꼭 필요한 역량으로 인식되고 있습니다. 소소하지만 이러한 인지주의적 시각화의 특성을 알고 내가 사용할 시각화에 적용한다면 청자를 더 쉽게 이해시킬 수 있을 것입니다.