본문 바로가기
  • "You can't manage what you can't measure" Peter Drucker
데이터 분석 (with Rstudio)

데이터 분석 #2 (DIKW 피라미드)

by Vitaminymc 2023. 7. 22.
반응형

보석이 만들어지는 과정을 보면, 광산에서 거의 돌 상태의 광물을 채굴한 후, 원석(가공이나 커팅이 되어 있지 않은 상태)을 커팅하여 나석(커팅은 되었으나, 세팅이 되기 전)으로 만들고, 장신구에 맞게 세팅하여 비로서 보석으로 의미와 가치가 생기는 과정을 생각하게 되었다.

데이터를 가공하여 목적에 맞는 정보를 생성하고 다른 지식을 접목함으로써 최적 또는 차선의 의사결정이 가능한 결과를 도출함,  많은 자료들이 이러한 과정을 DIKW 피라미드를 통해서 설명하고 있다.

데이터가 너무 많은 시대에 데이터를 가공하여, 의미있는 정보로 변환하여 Insight 도출하고 의사결정이 하는 것이 현대 직장인의 주요 업무가 아닐까 생각한다.

 

DIKW 피라미드

Data - Information - Knowledge - Wisdom

(출처 : 현장에서 바로써먹는 데이터분석 with R, 김임용 저)

 

DIKW     의미    
Data
데이터
다른 데이터와 상관없는 가공 전의 순수한 수치나 기호
가공되지 않은 객관적인 사실 및 데이터
Information
정보
데이터의 가공 및 상관관계 이해를 통해 Pattern을 인식하고 의미를 부여
특정 목적을 위해 데이터를 가공해 출력 된 결과
Knowledge
지식
상호 연결된 정보 Pattern을 활용하여 예측한 결과물
다양한 정보를 체계화시켜 만든 결과
Wisdom
지혜
근본 원리에 대한 깊은 이해를 바탕으로 도출한 창의적 아이디어
지식을 통해 데이터 분석 결과에 의미를 부여하는 것
데이터 → 정보 → 지식 → 지혜

데이터는 객관적 사실이기 때문에 그 자체로는 그다지 중요하지 않습니다.
그보다는 데이터를 어떻게 가공하고 활용해 어떤 가치를 창출할 것인가가 더 중요합니다.

데이터 자체는 얻고자 하는 결과에 크게 미치지 못하지만 이를 정보화시키고 다른 지식들과 접목해 활용하면
최소한의 자원만 투입해 원하는 결과를 얻을 수도 있습니다.
실제로 데이터 분석 프로젝트를 진행하다 보면 이런 개념적인 부분이 생각보다 중요하기 때문에 설명했습니다.

출처 : 현장에서 바로써먹는 데이터분석 with R, 김임용 저)

한 가지 내용(정보)을 열심히 분석하여 그 내용이 마치 최고의(또는 유일한) 정답인 것처럼 말하는 것은 똑똑하다고 말을 들을 수는 있지만, 지혜롭다는 말은 듣지 못한다. 지혜롭다는 말을 듣기 위해서는 여러 가지 현상을 다면적으로 봐야 한다.

다른 정보 및 지식과 연계한 통찰력을 기반으로 가장 최적의 정답(다음 단계의 실행할 수 있는 방안)을 제시하고 의사결정하는 것이 아닐까 생각한다.   

빅데이터 시대의 데이터 분석

과거에 엑셀로 데이터 분석을 하다보면, 컴퓨터가 다운되는 경우가 있었다. 그래서 컴퓨터 사양이 조금만 좋아진다면 데이터 분석을 더 빠르게 더 잘 할수 있을텐데라는 생각을 하곤 했다. 컴퓨터 사양은 지속적으로 높아졌지만, 엑셀 프로그램도 무거워 진 것인지, 여전히 대량의 데이터는 엑셀로 분석하는데 한계가 있다. 

빅데이터라는 용어의 포함 범위인 비정형 데이터(SNS, 영상, 이미지, 음성, 텍스트 등)이 아닌, 정형 데이터 (수치로 되어 있어 연산이 가능한 일반적인 데이터)를 분석에도 분석 대상 기간이 길어지면 데이터의 양이 많아진다. 과거에도 데이터의 양 이슈로 분석 대상 월을 선정하여, 1개월~3개월치 정도의 데이터만 상세 분석했다. 과거 데이터대비 최근 데이터는 같은 기간이더라도, 취급 SKU 수와 고객(출하처) 및 주문 건 수의 증가로 데이터의 양이 더 많다. 또한, 분석 대상 월의 적정성과 1~3개월의 짧은 기간의 분석이 과연 대표성이 충분한 것인가에 대한 논란이 계속 잠재하고 있다.  

이를 해결하기 위한 방법은 엑셀이 아닌 다른 방법으로 분석이 필요하다.

빅데이터가 만들어 내는 변화

빅데이터가 등장할 수 있었던 배경에는 다양한 IT 기기와 인터넷의 발달, 클라우드 컴퓨팅, 저장장치 비용 하락 등이 있습니다.
과거에는 전체 데이터를 모두 수집하기 위해서는 막대한 인력과 자본이 투입되었기 때문에 주로 전체 데이터(모집단)에서 표본(Sample)을 추출해 전체 데이터의 특성을 추정해야만 했습니다.

하지만, 빅데이터 시대에는 표본이 아닌 모집단 전체 데이터를 수집하는 데도 과거보다 비용이 아주 저렴해졌습니다.
이러다 보니 기존에는 비용 때문에 수집하지 않던 데이터도 수집하기 시작했습니다. 왜냐하면 거기에서 어떤 패턴이나 규칙을 발견해 새로운 가치를 창출할 수도 있다고 생각했기 때문입니다.

과거에는 데이터의 질(Quality)에 집중했다면 이제는 양(Quantity)에 더 초점을 맞추고 있습니다.
결국 절대적인 데이터의 양이 많아지면 양질의 데이터도 자연스럽게 증가하기 때문입니다.

이제는 원인 x와 결과 y를 이론적으로 설명하는 인과관계보다 단순히 x와 y의 관계를 수치화시켜 알려주는 상관관계를 더 중요시하고 잇습니다. 굳이 발생하는 모든 일의 원인을 알 필요가 없기 때문입니다.

출처 : 현장에서 바로써먹는 데이터분석 with R, 김임용 저)

Image Source : 교보문고

현장에서 바로써먹는 데이터 분석 with R | 김임용 - 교보문고 (kyobobook.co.kr)

 

데이터 분석이란

데이터 과학 > 데이터 분석 > 데이터 마이닝

데이터 마이닝은 데이터 분석에서 활용하는 방법론 중 일부를 말합니다. 
데이터 과학은 데이터 분석을 포함한 광범위한 영역을 뜻합니다.
예를 들어, 데이터 분석이 시각화를 통한 리포팅 수준에서 끝이 난다면, 
데이터 과학은 데이터 분석을 통해 개발된 모델을 이용한 새로운 시스템을 구축하는 수준까지 확장된다고 보면 큰 무리가 없을 것입니다.

출처 : 현장에서 바로써먹는 데이터분석 with R, 김임용 저)

데이터 과학

데이터 과학(data science)이란, 데이터 마이닝(Data Mining)과 유사하게 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는 과정에서 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합 분야다.

데이터 과학은 데이터를 통해 실제 현상을 이해하고 분석하며 통계학, 데이터 분석, 기계학습과 연관된 방법론을 통합하는 개념으로 정의되기도 한다.

데이터의 구체적인 내용이 아닌 서로 다른 성질의 내용이나 형식의 데이터에 공통으로 존재하는 성질, 또는 그것들을 다루기 위한 기술의 개발에 착안점을 둔다는 특징을 가진다. 사용되는 기술은 여러분야에 걸쳐있으며 수학, 통계학, 컴퓨터 과학, 정보공학, 패턴인식, 기계학습, 데이터마이닝, 데이터베이스 등과 관련이 있다. 데이터 과학을 연구하는 사람을 데이터 과학자라고 한다.

출처 : https://ko.wikipedia.org/wiki/%EB%8D%B0%EC%9D%B4%ED%84%B0_%EC%82%AC%EC%9D%B4%EC%96%B8%EC%8A%A4

데이터 분석

데이터 분석(data analysis)은 유용한 정보를 발굴하고 결론적인 내용을 알리며 의사결정을 지원하는 것을 목표로 데이터를 정리, 변환, 모델링하는 과정이다. 데이터 분석은 다방면으로 접근 방식이 있다. 다양한 이름의 다양한 기술을 아우르며, 각기 다른 비즈니스, 과학, 사회과학 분야에 사용된다. 오늘날 비즈니스 부문에서 데이터 분석은 의사 결정을 더 과학적으로 만들어 주고 비즈니스를 더 효율적으로 운영할 수 있도록 도와주는 역할을 한다.

출처 : https://ko.wikipedia.org/wiki/%EB%8D%B0%EC%9D%B4%ED%84%B0_%EB%B6%84%EC%84%9D

데이터 마이닝

데이터마이닝(data mining), 또는 자료채굴(資料採掘)은, 대규모로 저장된 데이터안에서 체계적이고 자동적으로 통계적규칙이나 짜임을 분석하여, 가치있는 정보를 빼내는 과정이다. 다른 말로는, KDD(데이터베이스속의 앎발견, knowledge-discovery in databases)라고도 일컫는다.

출처 : https://ko.wikipedia.org/wiki/%EB%8D%B0%EC%9D%B4%ED%84%B0_%EB%A7%88%EC%9D%B4%EB%8B%9D

데이터 과학 이든, 데이터 분석 이든, 데이터 마이닝 이든

공통점은 데이터를 통해서 Value를 창출하는 것

Value를 창출하기 위해서는 단순히 분석 기법뿐만 아니라, 관련 기반 지식 (업 특성 및 프로세스, 용어 등)이 필요하다.

728x90