빈도 분석
전공에 따라 논문 작성 방식 및 취급 데이터 특성의 차이가 있으나,
범주형 변수를 분석하는 첫 번째 단계는 각 변수의 변수값의 빈도와 비율을 계산하는 것이다.
특히, 설문조사를 하는 경우에는 설문 항목별 응답 결과에 대한 빈도 분석을 첫 번째로 한다.
설문지 예시
1. 성별 | (1) 남성 (2) 여성 |
2. 연령대 | (1) 18~29 (2) 30대 (3) 40대 (4) 50대 (5) 60대 (7) 70대 이상 |
3. 프로야구 관심 정도 | (1) 많이 있다 (2) 약간 있다 (3)별로 없다 (4) 전혀 없다 (5)모름/응답거절 |
4. 가장 좋아하는 KBO 프로야구 팀 | (1) KIA 타이거즈 (2) 삼성 라이온즈 (3) 롯데 자이언츠 (4) 한화 이글스 (5) 두산 베어스 (6) LG 트윈스 (7) SSG 랜더스 (8) 키움 히어로즈 (9) NC 다이노스 (10) kt 위즈 (11) 없음 |
5. 올 시즌 우승 예상 | (1) KIA 타이거즈 (2) 삼성 라이온즈 (3) 롯데 자이언츠 (4) 한화 이글스 (5) 두산 베어스 (6) LG 트윈스 (7) SSG 랜더스 (8) 키움 히어로즈 (9) NC 다이노스 (10) kt 위즈 (11) 모름/없음 |
6. 거주 지역 | (1) 서울 (2) 인천/경기 (3) 강원 (4) 대전/세종/충청 (5) 광주/전라 (6) 대구/경북 (7) 부산/울산/경남 (8) 제주 |
한국갤럽 '프로야구에 대한 여론조사 - 선호 구단, 예상 우승팀, 좋아하는 선수, 관심도' 설문 항목 중 일부를 참고하여 작성 함
- 조사기간: 2023년 3월 21~23일
- 조사대상: 전국 만 18세 이상 1,001명
- 조사내용 : 1998년 이후 프로야구 구단 선호도, 2023년 예상 우승팀, 국내 프로야구 관심도,
좋아하는 국내외 활동 야구 선수(3명까지 자유응답)
- 의뢰처: 한국갤럽 자체 조사
https://www.gallup.co.kr/gallupdb/reportContent.asp?seqNo=1376
R / Rstudio
팔머 펭귄 (Palmerpenguins) Dataset을 활용한 빈도 분석
펭귄 3종 (species)의 서식지 (island), 부리 길이 (bill_length_mm), 부리 높이 (bill_depth_mm), 날개 팔 (wing이 아닌 flipper) 길이 (flipper_length_mm), 몸무게 (body_mass_g), 성별 (sex), 연도(year)에 대한 정보로 구성됨
- ChinStrap (턱끈펭귄) : 턱에 끈과 같은 형태의 검은 털이 있음 (키 : 약 72cm, 몸무게: 6~7kg)
https://namu.wiki/w/%ED%84%B1%EB%81%88%ED%8E%AD%EA%B7%84
- Gentoo (젠투펭귄) : 양눈 사이로 이어진 부분은 머리띠 형태 무늬의 흰색 털
- 키 : 51cm ~ 90cm, 몸무게 : 수컷 4.9~8.5kg, 암컷 4.5~8.2kg (황제펭귄, 왕펭귄에 이어 3번째로 큰 펭귄)
https://namu.wiki/w/%EC%A0%A0%ED%88%AC%ED%8E%AD%EA%B7%84
- Adelie (아델리펭귄) : 머리와 등은 짙은 검은색이고 가슴과 배, 눈둘레는 흰색 (키 : 약 75cm)
https://namu.wiki/w/%EC%95%84%EB%8D%B8%EB%A6%AC%ED%8E%AD%EA%B7%84
- [이원영의 펭귄뉴스] ‘물속을 나는 새’ 펭귄, 몸 옆에 붙은 건 날개? 지느러미?
- 영어권 국가에선 펭귄의 몸 양쪽에 붙어있는 기관을 ‘윙(wing)’이라고 부르지 않고 ‘플리퍼(flipper)’라고 부
- 플리퍼는 물범, 바다거북, 펭귄 같은 해양 동물이 수영할 때 쓰는 넓적한 지느러미 모양의 발을 뜻함
https://www.hankookilbo.com/News/Read/201911071619746225
Source : https://allisonhorst.github.io/palmerpenguins/
종(species)별 빈도
종은 범주형 (Factor) 변수
install.packages('palmerpenguins') #팔머 펭귄 Dataset이 포함된 패키지 library(palmerpenguins) data("penguins") #Dataset 불러오기 (펭귄 데이터 프레임) str(penguins) #Dataset 구성 확인 |
||||
tibble [344 × 8] (S3: tbl_df/tbl/data.frame) | ||||
$ | species | : | Factor w/ 3 | levels "Adelie","Chinstrap",..: 1 1 1 1 1 1 1 1 1 1 |
$ | island | : | Factor w/ 3 | levels "Biscoe","Dream",..: 3 3 3 3 3 3 3 3 3 3 ... |
$ | bill_length_mm | : | num [1:344] | 39.1 39.5 40.3 NA 36.7 39.3 38.9 39.2 34.1 42 ... |
$ | bill_depth_mm | : | num [1:344] | 18.7 17.4 18 NA 19.3 20.6 17.8 19.6 18.1 20.2 ... |
$ | flipper_length_mm | : | int [1:344] | 181 186 195 NA 193 190 181 195 193 190 ... |
$ | body_mass_g | : | int [1:344] | 3750 3800 3250 NA 3450 3650 3625 4675 3475 4250 ... |
$ | sex | : | Factor w/ 2 | levels "female","male": 2 1 1 NA 1 2 1 2 NA NA ... |
$ | year | : | int [1:344] | 2007 2007 2007 2007 2007 2007 2007 2007 2007 2007 . |
head(penguins) #일부 데이터 확인 |
||||||||
# | A tibble | : 6 × 8 | ||||||
species | island | bill_length_mm | bill_depth_mm | flipper_length_mm | body_mass_g | sex | year | |
<fct> | <fct> | <dbl> | <dbl> | <int> | <int> | <fct> | <int> | |
1 | Adelie | Torgersen | 39.1 | 18.7 | 181 | 3750 | male | 2007 |
2 | Adelie | Torgersen | 39.5 | 17.4 | 186 | 3800 | female | 2007 |
3 | Adelie | Torgersen | 40.3 | 18 | 195 | 3250 | female | 2007 |
4 | Adelie | Torgersen | NA | NA | NA | NA | NA | 2007 |
5 | Adelie | Torgersen | 36.7 | 19.3 | 193 | 3450 | female | 2007 |
6 | Adelie | Torgersen | 39.3 | 20.6 | 190 | 3650 | male | 2007 |
table(penguins$species) #table 함수를 사용하여 종(species)별 빈도 확인 |
||
Adelie | Chinstrap | Gentoo |
152 | 68 | 124 |
count(penguins, species) #count 함수를 사용하여 종별 빈도 확인 또는 penguins %>% # 파이프 연산자 활용, tidyverse 패키지 설치 필요 count(species) |
||
# | A tibble: | 3 × 2 |
species | n | |
<fct> | <int> | |
1 | Adelie | 152 |
2 | Chinstrap | 68 |
3 | Gentoo | 124 |
기술통계
R / Rstudio
평균, 분산, 표준편차, 범위, 최소값, 최대값, 사분위수 등을 R 함수를 통해서 확인한다.
summary(penguins) #summary 함수를 사용하면 주(Factor)형 변수는 Factor별 데이터 수가 표시되고 #숫자형 변수는 변수별 요약 정보 (최소값, 1분위수, 중앙값, 평균, 3분위수, 최대값, 결측값 수)가 표시됨 |
|||||||
species | island | bill_length_mm | bill_depth_mm | flipper_length_mm | body_mass_g | sex | year |
Adelie :152 | Biscoe :168 | Min. :32.10 | Min. :13.10 | Min. :172.0 | Min. :2700 | female:165 | Min. :2007 |
Chinstrap: 68 | Dream :124 | 1st Qu.:39.23 | 1st Qu.:15.60 | 1st Qu.:190.0 | 1st Qu.:3550 | male :168 | 1st Qu.:2007 |
Gentoo :124 | Torgersen: 52 | Median :44.45 | Median :17.30 | Median :197.0 | Median :4050 | NA's : 11 | Median :2008 |
Mean :43.92 | Mean :17.15 | Mean :200.9 | Mean :4202 | Mean :2008 | |||
3rd Qu.:48.50 | 3rd Qu.:18.70 | 3rd Qu.:213.0 | 3rd Qu.:4750 | 3rd Qu.:2009 | |||
Max. :59.60 | Max. :21.50 | Max. :231.0 | Max. :6300 | Max. :2009 | |||
NA's :2 | NA's :2 | NA's :2 | NA's :2 |
Rstudio 데이터 살펴보기 #3 (기술통계) (tistory.com)
Rstudio 데이터 살펴보기 #3 (기술통계 및 데이터 분포 해석) (tistory.com)
Rstudio 사분위수(Quartile)와 Outliers(이상치) (tistory.com)
붓꽃(iris) Dataset 퇴출 및 팔머 펭귄 (Palmerpenguins) Dataset 활용
Source : https://statkclee.github.io/data-science/ds-iris-penguin.html
미국에서 “George Floyd”가 경찰에 의해 살해되면서 촉발된 “Black Lives Matter” 운동은 아프리카계 미국인을 향한 폭력과 제도적 인종주의에 반대하는 사회운동이다. 통계학에 기여는 크나 우생학자인 R.A. Fisher가 과거 저술한 “The genetical theory of natural selection” 의 우생학(Eugenics) 대한 논란으로, R 데이터 과학의 첫 데이터셋으로 붓꽃(iris) 데이터를 다른 데이터로 대체하는 움직임이 활발히 전개되고 있음
Eugenics and the Ethics of Statistical Analysis (December 16, 2019 by Ido Levy)
우생학과 통계분석의 윤리
Source : https://gppreview.com/2019/12/16/eugenics-ethics-statistical-analysis/
In 1930, the British statistician Ronald Fisher published a book entitled The Genetical Theory of Natural Selection, which argued, among other topics, that women are naturally attracted to men whose genes are best-suited for “reproductive success.” No doubt, to a modern reader, Fisher’s “sexy son hypothesis” seems peculiar. It may not be surprising to learn that Fisher was a devoted eugenicist.
1930년 영국의 통계학자 로널드 피셔(Ronald Fisher)는 자연 선택의 유전 이론(The Genetical Theory of Natural Selection)이라는 책을 출판했는데, 이 책에서는 여성이 자연적으로 "생식 성공"에 가장 적합한 유전자를 가진 남성에게 매력을 느낀다고 주장했습니다. 의심할 바 없이, 현대 독자들에게는 피셔의 “섹시한 아들 가설”이 이상해 보일 것입니다. 피셔가 헌신적인 우생학자였다는 사실은 놀라운 일이 아닐 수도 있습니다.
Eugenics also influenced U.S. policy. Throughout the 20th century, 32 of the U.S. states had adopted sterilization laws based on eugenics principles, enabling the forced sterilization of about 60,000 Americans. Lawmakers used eugenics to justify the passage of the Immigration Act of 1924, which greatly restricted immigration from Eastern Europe and prohibited immigration from Asia. Disturbingly, in 1925, U.S. sterilization and immigration laws won praise from Adolf Hitler.
우생학은 미국 정책에도 영향을 미쳤다. 20세기 내내 미국의 32개 주에서는 우생학 원칙에 기초한 불임법을 채택하여 약 60,000명의 미국인을 강제 불임 수술로 만들었습니다. 국회의원들은 동유럽으로부터의 이민을 크게 제한하고 아시아로부터의 이민을 금지한 1924년 이민법의 통과를 정당화하기 위해 우생학을 이용했습니다. 놀랍게도 1925년에 미국의 불임법과 이민법은 아돌프 히틀러로부터 칭찬을 받았습니다.
Schools continue using eugenics-inspired grading and testing systems. Writing off the eugenicists as long-dead is missing an important opportunity to reflect on the ethics of quantitative methods.
학교에서는 우생학에서 영감을 받은 등급 및 시험 시스템을 계속 사용하고 있습니다. 우생학자들을 오래전에 죽은 것으로 폄하하는 것은 정량적 방법의 윤리를 성찰할 중요한 기회를 놓치는 것입니다.
우생학(優生學, eugenics)은 육종 등의 방법으로 인간의 유전형질 가운데 우수한 것을 선별, 개량하여 인류 전반의 유전적 품질(genetic quality)을 향상시킬 수 있다고 믿는 과학적 신념이자 유사과학으로, 현대 생물학계에서는 폐기된 과학이론이다. 정치적으로는 파시즘적 사회 이데올로기로서 유전자 차별, 인종차별로도 분류된다.
'데이터 분석 (with Rstudio)' 카테고리의 다른 글
[R 기초] 결측값 결측치 처리 (데이터 클린징) (0) | 2023.09.21 |
---|---|
[R 기초] 교차 분석 (논문 작성을 위한 두 번째 분석) (0) | 2023.09.18 |
[R 기초] 변수 및 자료 유형 (벡터 및 주요함수) (0) | 2023.09.10 |
대한민국 출산율 및 출생인구 동향 (0) | 2023.09.06 |
빅데이터 관련 대학 및 학과_관련 직업 및 진로 (0) | 2023.09.01 |