본문 바로가기
  • "You can't manage what you can't measure" Peter Drucker
728x90

데이터 분석 (with Rstudio)62

[R Studio] 이원배치 분산분석 ANOVA 2 (상호작용이 있는 경우) 이원배치 분산분석 (two-way ANOVA (Analysis of Variance)) 이원배치 분산분석 예 (상호작용이 있는 경우) 세 종류의 캔디향 (A, B, C)와 세 가지 가격 (79센트, 89센트, 99센트)의 판매효과를 시험하려고 한다. 캔디 매출 수준이 유사한 9개의 점포를 선정하고, 판매량을 조사하였다. 캔디향 A 캔디향 B 캔디향 C 79센트 8 7 10 8 9 9 14 13 15 89센트 4 6 7 14 12 15 12 13 14 99센트 9 10 11 8 7 10 13 14 15 candy candy [1] "apple" "apple" "apple" "apple" "apple" "apple" "apple" "apple" "apple" "grape" "grape" "grape" [13.. 2023. 10. 1.
[R Studio] 이원배치 분산분석 ANOVA (논문 작성을 위한 다섯 번째 분석) 이원배치 분산분석 (two-way ANOVA (Analysis of Variance)) 두 가지 독립 변수 (또는 요인)가 동시에 작용하는 경우(실험)에 대한 분산분석법을 이원배치 분산분석 (two-way ANOVA)라고 한다. 이원배치 분산분석에서는 두 독립 변수(요인) 간의 상호작용 (interaction effect)이 있는지를 먼저 조사(검정)하고, 상호작용이 존재하지 않아야만 각각의 요인의 효과를 따로 떼어서 분석하는 것이 가능해진다. 이원배치 분산분석에서는 두 요인의 각각의 효과 이외에 두 요인 간의 상호작용이 추가될 수 있다. 다중비교 절차 1. 두 요인간의 상호작용이 존재하는지 확인한다. 2. 상호작용이 존재하지 않으면, 요인 효과를 따로 분리하여 각각의 요인에 대하여 다중비교를 실시할 수.. 2023. 10. 1.
[R Studio] 평균의 비교 대응 표본 T-검정(test) (논문 작성을 위한 네 번째 분석) t-검정은 두 모집단의 독립여부에 따라, "독립 표본 t-검정"과 "대응 표본 t-검정"으로 나눌 수 있다. 독립 2표본 t-검정은 두 독립적인 집단 간의 평균 차이를 비교하는 데 사용되며, 대응 2표본 t-검정은 동일한 개체 또는 단위에 대한 두 가지 다른 조건 또는 시점에서 수집한 데이터 간의 평균 차이를 비교하는 데 사용된다. 1. 독립 표본 t-검정 예 : 두 그룹의 학생들이 서로 다른 수학 시험의 평균 점수를 비교 이들 그룹은 서로 독립적이며, 두 그룹의 데이터는 서로 관련이 없다. 2. 대응 표본 t- 검정 예 : 어떤 치료 전후에 환자들의 혈압을 측정하여 치료 효과를 비교 치료 전과 후에 대응되는 데이터로 간주되며, 이 경우 대응표본 t-검정을 사용하여 두 조건 간의 차이를 검정 비교하고자 .. 2023. 9. 28.
[R Studio] 평균의 비교 T-검정(test) (논문 작성을 위한 네 번째 분석) t-검정 (t-test) t-검정은 두 개의 집단 간에 평균 차이가 통계적으로 유의미한지를 판단하는 데 사용된다. "두 모집단의 평균간의 차이는 없다"라는 귀무가설과 "두 모집단의 평균간에 차이가 있다"라는 대립가설 중에 하나를 선택하는 통계적 검정방법이다. 모든 통계적 검정방법과 마찬가지로, t-검정은 귀무가설이 옳다는 가정 하에 두 모집단으로부터 추출된 표본들로부터 계산된 검정통계량 근거하여 귀무가설을 부정할 수 있는 상당한 근거를 보이면 귀무가설을 기각하고, 그렇지 않을 경우에는 귀무가설을 받아들이게 된다. t-검정통계량을 계산하여 두 표본평균간의 차이가 귀무가설 하에 있을 확률, 표본오차로 인해 차이가 발생할 확률 (유의확률, p-값)을 계산한다. 만약 계산된 확률이 귀무가설을 기각하기로 설정한 .. 2023. 9. 28.
[R 기초] 기술통계 (논문 작성을 위한 세 번째 분석) 기술통계 주어진 데이터를 몇 개의 요약값으로 효과적으로 표현하는 방법이 기술통계 분석이다. 기술통계 값은 차후에 고차원 데이터 분석을 위한 준비과정이다. 기술통계 값은 (1) 분포의 중심을 나타내는 중심 경향 값, (2) 분포의 퍼짐 정도를 나타내는 산포도, (3) 분포의 모양을 나타내는 분포도로 나뉜다. 구분 분석 값 의미 기술통계 값 중심 경향 값 분포의 중심 평균, 중위수(중앙값), 최빈값 산포도 분포의 퍼짐 정도 표준편차, 분산, 범위, 사분위 범위 분포도 분포의 모양 왜도, 첨도 평균 (R 함수 : mean) 평균은 대표적인 통계 값이나, 극단 값(extreme valuse)의 영향을 받기 때문에 표본의 크기(관측값)가 작을 경우에는 몇 개의 극대값에 의해서 대표값 기능을 상실 할 수도 있다. .. 2023. 9. 26.
[R 기초] 결측값 결측치 처리 (데이터 클린징) 데이터 전처리 (Data Preprocessing) 데이터 전처리는 데이터 사이언스, 머신 러닝 및 데이터 분석 프로젝트 필요한 데이터를 준비하고 가공하여 분석, 모델링 또는 머신 러닝 모델에 적합하게 사용할 수 있는 형태로 준비하는 포괄적인 과정 데이터의 품질을 향상시키고 분석 가능한 형태로 변환하여 모델의 성능을 최적화하고 정확성을 확보하기 위한 사전 단계 데이처 전처리 과정 1. 데이터 수집 : 프로젝트의 목적에 따라 적합한 데이터를 수집하고 데이터의 정확성과 완전성을 확인 시스템에서 데이터를 추출하더라도 엑셀 파일 등으로 변환하는 과정에서 누락이나 중복되는 경우 발생 데이터에 사용되는 여러 날짜 (예. 주문일, 물류센터 출고일, 고객 배송일 등)와 분석 대상 기간의 기준 확인 필요 2. 결측치 처.. 2023. 9. 21.
[R 기초] 교차 분석 (논문 작성을 위한 두 번째 분석) 교차분석 수집한 설문 결과에 대해서 단일 변수에 대한 빈도분석을 수행한 후, 의미있는 정보를 얻기 위해서는 두 가지 이상의 변수를 결합하여 분석한다. R / Rstudio addmargins + table addmargins() 함수는 행렬 또는 데이터 프레임에 마진(margin)을 추가하는 데 사용되는 함수 마진은 행과 열의 합계 또는 평균, 최대값, 최소값, 중앙값 등을 계산하여 제공 addmargins(table (penguins$species, penguins$island) ) #옵션을 지정하지 않으면, 행과 열의 합계를 출력 Biscoe Dream Torgersen Sum Adelie 44 56 52 152 Chinstrap 0 68 0 68 Gentoo 124 0 0 124 Sum 168 12.. 2023. 9. 18.
[R 기초] 빈도 분석 (논문 작성을 위한 첫 번째 분석) 빈도 분석 전공에 따라 논문 작성 방식 및 취급 데이터 특성의 차이가 있으나, 범주형 변수를 분석하는 첫 번째 단계는 각 변수의 변수값의 빈도와 비율을 계산하는 것이다. 특히, 설문조사를 하는 경우에는 설문 항목별 응답 결과에 대한 빈도 분석을 첫 번째로 한다. 설문지 예시 1. 성별 (1) 남성 (2) 여성 2. 연령대 (1) 18~29 (2) 30대 (3) 40대 (4) 50대 (5) 60대 (7) 70대 이상 3. 프로야구 관심 정도 (1) 많이 있다 (2) 약간 있다 (3)별로 없다 (4) 전혀 없다 (5)모름/응답거절 4. 가장 좋아하는 KBO 프로야구 팀 (1) KIA 타이거즈 (2) 삼성 라이온즈 (3) 롯데 자이언츠 (4) 한화 이글스 (5) 두산 베어스 (6) LG 트윈스 (7) SSG .. 2023. 9. 18.
[R 기초] 변수 및 자료 유형 (벡터 및 주요함수) 변수란 변수(Variable)는 데이터를 저장하고 관리하기 위한 기본 요소입니다. 변수는 데이터를 저장하는 데 사용되며, 변수에는 다양한 유형의 데이터를 저장할 수 있습니다 변수는 해당(저장 된) 데이터에 접근하거나 조작할 때 사용됩니다. R에서는 변수는 숫자, 문자열, 논리 값 등 다양한 데이터 유형을 저장하는 데 사용됩니다. 예) name, birth date, age, job, address 등 컬럼 (Columns) : 컬럼은 주로 데이터베이스 또는 표 형식의 데이터 구조에서 사용되는 용어입니다. 변수와 컬럼은 데이터의 저장 및 조작을 위한 관련된 개념이지만, 사용되는 문맥에 따라 약간의 차이가 있을 수 있습니다. 표나 데이터베이스의 열은 데이터의 특정 유형(숫자, 문자열 등)을 나타내며, 열은 .. 2023. 9. 10.
대한민국 출산율 및 출생인구 동향 최근 EBS Documentary의 캘리포니아 법대 조앤 윌리엄스 교수의 "대한민국 완전히 망했네요."라는 영상이 여러 뉴스를 통해서 보도되었다. 윌리엄스 교수의 표정보다, 이후에 나온 분들의 말처럼 대한민국의 구조적 문제는 정말 심각하다.취업난, 결혼 연기/포기, 난임, 저출산, 사교육비, 주택가격 상승, 가계 대출 증가, 노령화, 국민연금 고갈, 세금 투입, 세수 부족,...배부른 정치인과 국정 책임자들은 베이비 붐 시대의 낡은 이념 논쟁만 할 뿐, 인구 절벽이라는 현재와 미래 문제에 관심도 없고, 대책도 없는 것 같아서 답답하다.정책은 없고 놀고먹으며, 논쟁과 변명만 하면서 국민 혈세를 낭비하는 것은 정말 없는 게 나을 것 같다.0.78 세계 최저 수준의 출산율에 그친 대한민국의 현실조앤 윌리엄스 .. 2023. 9. 6.
빅데이터 관련 대학 및 학과_관련 직업 및 진로 학과명의 변화 모습을 보면, 시대의 키워드와 관련 직업 및 기술 트렌드를 알 수 있다. 예) 기계공학과를 메카트로닉스학과로, 생물학과를 '바이오' OO학과로, 산업공학과를 '시스템'OO학과로 약 10~13년 전인 2010년대 초에 빅데이터라는 단어가 컨설팅 및 SI 업계의 화두가 되었다. 빅데이터 관련 뉴스와 이를 활용한 서비스의 증가로 이제는 빅데이터에 대한 일반인의 관심이 증가하였고, 자연스럽게 학부모와 학생들의 빅데이터와 관련된 대학 및 학과 진학에도 관심이 증가하였다. 빅데이터 관련 학과 선택 기준 빅데이터 관련 학과들도 학교마다 다양한 학과명이 있으며, 주요 대학교의 빅데이터 관련 학과들을 조사한 결과, 크게 3가지 그룹으로 구분할 수 있다. 구분을 한 이유는 각 대학교 빅데이터 관련 학과의 모.. 2023. 9. 1.
R_엑셀_SQL 비교 R_엑셀 (Excel)_SQL 비교적은 데이터의 빠른 분석은 엑셀이 우수하나,대용량 데이터 및 반복적인 데이터 가공, 그래프 생성 등 데이터 분석을 통한 Insight 도출에는 R이 적합하며,실무에는 R과 엑셀을 함께 사용함(엑셀의 장단점과 R) RExcelSQL비고접근성(학습, 활용 등)비교적 어려움(데이터 분석목적)쉬움어려움(데이터 I/O 목적)- Rstudio와 유사하게 별도 SQL 프로그램 필요   (유료, 무료)- SQL 사용 환경 설정 필요 (DB 연결 등)- Google Big Query 활용한 SQL 작업 가능- Google Colab은 Python을 활용할 수 있도록  환경을 제공하나, R코드도 사용 가능 함수사용어려움쉬움어려움- 함수 사용은 어려우나, 확장성 보유  (관련 패캐지 추가).. 2023. 8. 30.
Rstudio 서울 수돗물 BOD 데이터 분석 2023.8.24 일본은 후쿠시마 원자력 발전소 사고 오염수를 해양 방류 시작 1945년 8월 6일과 8월 9일에 원자 폭탄을 맞은 일본은 핵 방사능 물질 위험을 가장 잘 알 것 같은데, 2차 세계대전 전범국인 일본은 2023년 8월 24일에 전 세계를 대상으로 해양 테러를 저질렀다. 8월 24일 방류를 시작하여, 앞으로 30년 동안 방류한다고 하나, 과연 30년 만에 끝날 수 있을지는 모른다. 몇몇 과학자들은 ALPS(다핵종 제거 설비)를 통해 대부분 핵종 물질은 처리되고, 걸러지지 않는 삼중수소는 대량의 바닷물에 희석되면 인체에 미치는 영향은 미비하다고 한다. 한 번도 시도되지 않은 일에 수학적 계산을 근거로 과학적이라고 하는 것은 과연 과학적인지 모르겠다. 인류가 아직도 모르는 현상이 많은데, 이런.. 2023. 8. 25.
Visualization (데이터 시각화) 중요성과 기본 원칙 [앤스컴 콰르텟, 데이터 공룡(Datasaurus Dozen)] 데이터 시각화 (Data Visualization) 숫자 형태의 Data를 그래프나 그림 등의 형태로 표현하는 과정 Visualization 중요성 분석도 중요하지만, 분석한 결과를 효과적으로 전달하는 것이 더 중요할 수도 있음 “많은 양의 Data를 분석(정리) 완료” → 어떻게 효과적으로 전달할 것인가? 많은 양의 Data를 일목요연 ( 一目瞭然 : 한눈에 들어오게 분명하고 명백)하게 제시하여, 복잡하고 많은 데이터의 패턴과 특징을 단번에 파악할 수 있도록 함, 신속한 의사결정을 돕기 위해서... ※ 요연(瞭然)’은 분명하고 명백하다 Data를 시각화 하면 Data가 담고 있는 정보나 의미를 보다 쉽게 파악할 수 있으며, 시각화 결과를 통해서 영감 (Inspiration)를 얻기도 함 삼성SDS Vi.. 2023. 8. 22.
Rstudio 구글 지도에 마커(Marker) 표시 (대한민국 독도) "독도는 대한민국 땅" 78주년 광복절을 맞아, ggmap 패키지를 사용하여 google map에서 독도를 표시하는 방법을 실행해 보았다. 문제는 google은 여전히, 한국의 영토인 독도를 중립적으로 표기하고 있다. google map 활용한 지도 보기 ggmap 패키지는 Google Maps API를 활용하여 지도를 생성하고, 여기에 지리적 데이터를 레이어로 추가하고 시각화할 수 있는 기능을 제공 구글맵을 사용하기 위해서는 "https://console.cloud.google.com/"에서 API Key를 부여 받아야 함 API Key를 부여받기 위해서는 '결제'를 연동해야 함 geocode geocode() 함수는 주소나 장소 이름을 입력으로 받아 해당 위치의 위도와 경도 좌표를 반환하는 기능을 수.. 2023. 8. 15.
728x90