본문 바로가기
  • "You can't manage what you can't measure" Peter Drucker
데이터 분석 (with Rstudio)

[R 기초] 빈도 분석 (논문 작성을 위한 첫 번째 분석)

by Vitaminymc 2023. 9. 18.
반응형

빈도 분석

전공에 따라 논문 작성 방식 및 취급 데이터 특성의 차이가 있으나,
범주형 변수를 분석하는 첫 번째 단계는 각 변수의 변수값의 빈도와 비율을 계산하는 것이다.

특히, 설문조사를 하는 경우에는 설문 항목별 응답 결과에 대한 빈도 분석을 첫 번째로 한다.  

설문지 예시

1. 성별   (1) 남성    (2) 여성
2. 연령대 (1)  18~29    (2) 30대    (3) 40대    (4) 50대    (5) 60대    (7) 70대 이상 
3. 프로야구 관심 정도  (1) 많이 있다     (2) 약간 있다     (3)별로 없다     (4) 전혀 없다     (5)모름/응답거절
4. 가장 좋아하는 KBO 프로야구 팀 (1) KIA 타이거즈    (2) 삼성 라이온즈    (3) 롯데 자이언츠    (4) 한화 이글스
(5) 두산 베어스     (6) LG 트윈스      (7) SSG 랜더스     (8) 키움 히어로즈
(9) NC 다이노스     (10) kt 위즈     (11) 없음
5. 올 시즌 우승 예상  (1) KIA 타이거즈    (2) 삼성 라이온즈    (3) 롯데 자이언츠    (4) 한화 이글스
(5) 두산 베어스     (6) LG 트윈스      (7) SSG 랜더스     (8) 키움 히어로즈
(9) NC 다이노스     (10) kt 위즈     (11) 모름/없음
6. 거주 지역 (1) 서울   (2) 인천/경기   (3) 강원    (4) 대전/세종/충청    (5) 광주/전라
(6) 대구/경북     (7) 부산/울산/경남     (8) 제주

한국갤럽 '프로야구에 대한 여론조사 - 선호 구단, 예상 우승팀, 좋아하는 선수, 관심도' 설문 항목 중 일부를 참고하여 작성 함

- 조사기간: 2023년 3월 21~23일

- 조사대상: 전국 만 18세 이상 1,001명

- 조사내용 : 1998년 이후 프로야구 구단 선호도, 2023년 예상 우승팀, 국내 프로야구 관심도,
                    좋아하는 국내외 활동 야구 선수(3명까지 자유응답)

- 의뢰처: 한국갤럽 자체 조사

https://www.gallup.co.kr/gallupdb/reportContent.asp?seqNo=1376 

 

R / Rstudio

팔머 펭귄 (Palmerpenguins) Dataset을 활용한 빈도 분석

펭귄 3종 (species)의 서식지 (island), 부리 길이 (bill_length_mm), 부리 높이 (bill_depth_mm), 날개 팔 (wing이 아닌 flipper) 길이 (flipper_length_mm), 몸무게 (body_mass_g), 성별 (sex), 연도(year)에 대한 정보로 구성됨

  • ChinStrap (턱끈펭귄) : 턱에 끈과 같은 형태의 검은 털이 있음 (키 : 약 72cm, 몸무게:  6~7kg)

 https://namu.wiki/w/%ED%84%B1%EB%81%88%ED%8E%AD%EA%B7%84

  • Gentoo (젠투펭귄) : 양눈 사이로 이어진 부분은 머리띠 형태 무늬의 흰색 털
    • 키 : 51cm ~ 90cm, 몸무게 : 수컷 4.9~8.5kg, 암컷 4.5~8.2kg (황제펭귄, 왕펭귄에 이어 3번째로 큰 펭귄)

https://namu.wiki/w/%EC%A0%A0%ED%88%AC%ED%8E%AD%EA%B7%84

  • Adelie (아델리펭귄) : 머리와 등은 짙은 검은색이고 가슴과 배, 눈둘레는 흰색 (키 : 약 75cm)

https://namu.wiki/w/%EC%95%84%EB%8D%B8%EB%A6%AC%ED%8E%AD%EA%B7%84

  • [이원영의 펭귄뉴스] ‘물속을 나는 새’ 펭귄, 몸 옆에 붙은 건 날개? 지느러미?
    • 영어권 국가에선 펭귄의 몸 양쪽에 붙어있는 기관을 ‘윙(wing)’이라고 부르지 않고 ‘플리퍼(flipper)’라고 부
    • 플리퍼는 물범, 바다거북, 펭귄 같은 해양 동물이 수영할 때 쓰는 넓적한 지느러미 모양의 발을 뜻함

https://www.hankookilbo.com/News/Read/201911071619746225

Palmer penguins

Source : https://allisonhorst.github.io/palmerpenguins/

 

palmerpenguins R data package

Data for three penguin species observed in the Palmer Archipelago, Antarctica, collected by Dr. Kristen Gorman with Palmer Station LTER. A great intro dataset for data science teaching and learning, and a useful replacement for the iris dataset.

allisonhorst.github.io

종(species)별 빈도

종은 범주형 (Factor) 변수

install.packages('palmerpenguins')  #팔머 펭귄 Dataset이 포함된 패키지

library(palmerpenguins)

data("penguins")  #Dataset 불러오기 (펭귄 데이터 프레임)

str(penguins)  #Dataset 구성 확인

tibble [344 × 8] (S3: tbl_df/tbl/data.frame)
$ species : Factor w/ 3 levels "Adelie","Chinstrap",..: 1 1 1 1 1 1 1 1 1 1
$ island : Factor w/ 3 levels "Biscoe","Dream",..: 3 3 3 3 3 3 3 3 3 3 ...
$ bill_length_mm : num [1:344] 39.1 39.5 40.3 NA 36.7 39.3 38.9 39.2 34.1 42 ...
$ bill_depth_mm : num [1:344] 18.7 17.4 18 NA 19.3 20.6 17.8 19.6 18.1 20.2 ...
$ flipper_length_mm : int [1:344] 181 186 195 NA 193 190 181 195 193 190 ...
$ body_mass_g : int [1:344] 3750 3800 3250 NA 3450 3650 3625 4675 3475 4250 ...
$ sex : Factor w/ 2 levels "female","male": 2 1 1 NA 1 2 1 2 NA NA ...
$ year : int [1:344] 2007 2007 2007 2007 2007 2007 2007 2007 2007 2007 .
head(penguins)  #일부 데이터 확인
# A tibble : 6 × 8            
  species island bill_length_mm bill_depth_mm flipper_length_mm body_mass_g sex year
  <fct> <fct> <dbl> <dbl> <int> <int> <fct> <int>
1 Adelie Torgersen 39.1 18.7 181 3750 male 2007
2 Adelie Torgersen 39.5 17.4 186 3800 female 2007
3 Adelie Torgersen 40.3 18 195 3250 female 2007
4 Adelie Torgersen NA NA NA NA NA 2007
5 Adelie Torgersen 36.7 19.3 193 3450 female 2007
6 Adelie Torgersen 39.3 20.6 190 3650 male 2007
table(penguins$species)  #table 함수를 사용하여 종(species)별 빈도 확인
Adelie Chinstrap Gentoo
152 68 124
count(penguins, species)  #count 함수를 사용하여 종별 빈도 확인

또는

penguins %>%  # 파이프 연산자 활용, tidyverse 패키지 설치 필요
count(species)    

# A tibble: 3 × 2
  species n
  <fct> <int>
1 Adelie 152
2 Chinstrap 68
     
3 Gentoo 124

 

 

300x250

기술통계

R / Rstudio

평균, 분산, 표준편차, 범위, 최소값, 최대값, 사분위수 등을 R 함수를 통해서 확인한다.

summary(penguins)   
#summary 함수를 사용하면 주(Factor)형 변수는 Factor별 데이터 수가 표시되고
#숫자형 변수는 변수별 요약 정보 (최소값, 1분위수, 중앙값, 평균, 3분위수, 최대값, 결측값 수)가 표시됨
species island bill_length_mm bill_depth_mm flipper_length_mm body_mass_g sex year
Adelie   :152 Biscoe   :168 Min.   :32.10 Min.   :13.10 Min.   :172.0 Min.   :2700 female:165    Min.   :2007
Chinstrap: 68 Dream    :124 1st Qu.:39.23 1st Qu.:15.60 1st Qu.:190.0 1st Qu.:3550 male  :168    1st Qu.:2007
Gentoo   :124 Torgersen: 52 Median :44.45 Median :17.30 Median :197.0 Median :4050 NA's  : 11    Median :2008
    Mean   :43.92 Mean   :17.15 Mean   :200.9 Mean   :4202   Mean   :2008
    3rd Qu.:48.50 3rd Qu.:18.70 3rd Qu.:213.0 3rd Qu.:4750   3rd Qu.:2009
    Max.   :59.60 Max.   :21.50 Max.   :231.0 Max.   :6300   Max.   :2009
    NA's   :2 NA's   :2 NA's   :2 NA's   :2    

 

Rstudio 데이터 살펴보기 #3 (기술통계) (tistory.com)

 

Rstudio 데이터 살펴보기 #3 (기술통계)

기술통계 (Descriptive Statistics) 기술통계는 영어명에서 보는 것 처럼, 우리가 흔히 말하는 기술 [技術]이 아닌, 기록하여 서술한다는 의미의 기술 [記述] 임 기술통계란 데이터를 요약, 표현, 해석하

logistician.tistory.com

Rstudio 데이터 살펴보기 #3 (기술통계 및 데이터 분포 해석) (tistory.com)

 

Rstudio 데이터 살펴보기 #3 (기술통계 및 데이터 분포 해석)

평균과 중앙값의 관계 데이터가 한쪽으로 치우쳐져 있을 때, 평균과 중앙값의 값이 다를 수 있음 즉, 중앙값과 평균의 위치에 따라, 데이터의 분포 형태를 구분할 수 있음 평균과 중앙값의 차이

logistician.tistory.com

Rstudio 사분위수(Quartile)와 Outliers(이상치) (tistory.com)

 

Rstudio 사분위수(Quartile)와 Outliers(이상치)

Rstudio의 summary 함수를 통해서, 1사분위수(Q1), 2사분위수(Q2, 중앙값) 3사분위수(Q3)을 확인 summary (slam_dunk) uniform_no 4 : 1 5 : 1 6 : 1 7 : 1 8 : 1 9 : 1 (Other):6 name Length:12 Class :character Mode :character height Min. :16

logistician.tistory.com


붓꽃(iris) Dataset 퇴출 및 팔머 펭귄 (Palmerpenguins) Dataset 활용

Source : https://statkclee.github.io/data-science/ds-iris-penguin.html

 

미국에서 “George Floyd”가 경찰에 의해 살해되면서 촉발된 “Black Lives Matter” 운동은 아프리카계 미국인을 향한 폭력과 제도적 인종주의에 반대하는 사회운동이다. 통계학에 기여는 크나 우생학자인  R.A. Fisher가 과거 저술한 “The genetical theory of natural selection” 의 우생학(Eugenics) 대한 논란으로, R 데이터 과학의 첫 데이터셋으로 붓꽃(iris) 데이터를 다른 데이터로 대체하는 움직임이 활발히 전개되고 있음

 

Eugenics and the Ethics of Statistical Analysis (December 16, 2019 by Ido Levy)

우생학과 통계분석의 윤리

Source : https://gppreview.com/2019/12/16/eugenics-ethics-statistical-analysis/

 

In 1930, the British statistician Ronald Fisher published a book entitled The Genetical Theory of Natural Selection, which argued, among other topics, that women are naturally attracted to men whose genes are best-suited for “reproductive success.” No doubt, to a modern reader, Fisher’s “sexy son hypothesis” seems peculiar. It may not be surprising to learn that Fisher was a devoted eugenicist.

1930년 영국의 통계학자 로널드 피셔(Ronald Fisher)는 자연 선택의 유전 이론(The Genetical Theory of Natural Selection)이라는 책을 출판했는데, 이 책에서는 여성이 자연적으로 "생식 성공"에 가장 적합한 유전자를 가진 남성에게 매력을 느낀다고 주장했습니다. 의심할 바 없이, 현대 독자들에게는 피셔의 “섹시한 아들 가설”이 이상해 보일 것입니다. 피셔가 헌신적인 우생학자였다는 사실은 놀라운 일이 아닐 수도 있습니다.

 

Eugenics also influenced U.S. policy. Throughout the 20th century, 32 of the U.S. states had adopted sterilization laws based on eugenics principles, enabling the forced sterilization of about 60,000 Americans. Lawmakers used eugenics to justify the passage of the Immigration Act of 1924, which greatly restricted immigration from Eastern Europe and prohibited immigration from Asia. Disturbingly, in 1925, U.S. sterilization and immigration laws won praise from Adolf Hitler.

우생학은 미국 정책에도 영향을 미쳤다. 20세기 내내 미국의 32개 주에서는 우생학 원칙에 기초한 불임법을 채택하여 약 60,000명의 미국인을 강제 불임 수술로 만들었습니다. 국회의원들은 동유럽으로부터의 이민을 크게 제한하고 아시아로부터의 이민을 금지한 1924년 이민법의 통과를 정당화하기 위해 우생학을 이용했습니다. 놀랍게도 1925년에 미국의 불임법과 이민법은 아돌프 히틀러로부터 칭찬을 받았습니다.

 

Schools continue using eugenics-inspired grading and testing systems. Writing off the eugenicists as long-dead is missing an important opportunity to reflect on the ethics of quantitative methods.

학교에서는 우생학에서 영감을 받은 등급 및 시험 시스템을 계속 사용하고 있습니다. 우생학자들을 오래전에 죽은 것으로 폄하하는 것은 정량적 방법의 윤리를 성찰할 중요한 기회를 놓치는 것입니다.


우생학(優生學, eugenics)은 육종 등의 방법으로 인간의 유전형질 가운데 우수한 것을 선별, 개량하여 인류 전반의 유전적 품질(genetic quality)을 향상시킬 수 있다고 믿는 과학적 신념이자 유사과학으로, 현대 생물학계에서는 폐기된 과학이론이다. 정치적으로는 파시즘적 사회 이데올로기로서 유전자 차별, 인종차별로도 분류된다.

Source : https://namu.wiki/w/%EC%9A%B0%EC%83%9D%ED%95%99

728x90