본문 바로가기
  • "You can't manage what you can't measure" Peter Drucker
데이터 분석 (with Rstudio)

데이터 분석(과학) 프로그래밍 언어 #1

by Vitaminymc 2023. 7. 22.
반응형

R은 프로그래밍 언어라기 보다는

분석을 위한 Script (스크립트)이기 때문에 사람이 데이터 분석하는 과정대로 스크립트를 작성하면 

원하는 분석 결과를 얻을 수 있어, 상대적으로 배우기 쉽다.

특히, 프로그래밍 및 코딩 경험이 없는 사람들이 컴퓨팅 사고를 배우기에 적합하다.

 

컴퓨팅 사고 (Computational thinking, CT)는 컴퓨터(또는 사람, 기계)가 효과적으로 업무를 수행할 수 있도록 문제를 정의하고

그에 대한 답을 논리적으로 조직화 및 기술하는 것이 포함된 사고 과정 일체를 일컫는다. 

https://ko.wikipedia.org/wiki/%EC%BB%B4%ED%93%A8%ED%8C%85_%EC%82%AC%EA%B3%A0

 

Data Science  분야에서 경력을 쌓는 데 관심이 있다면, 알아야 할 상위 10개 프로그래밍 언어

      특징    
R -  R은 데이터 과학에서 일반적으로 사용되는 또 다른 프로그래밍 언어
-  Python과 마찬가지로 R은 오픈 소스이므로 자유롭게 사용할 수 있고 대규모 개발자 커뮤니티가 있음
-  R은 특히 데이터 시각화에 유용하며 데이터 시각화 및 분석을 위한 강력한 라이브러리가 많음
Python -  Python은 데이터 과학에서 사용되는 가장 인기 있는 프로그래밍 언어로 배우고 사용하기 쉬운 편
   (개인의 차이가 있을 수 있음)
-  크고 활동적인 커뮤니티를 통해 언어에 대해 더 배우고, 사용할 수 있는 많은 리소스가 얻을 수 있음
SQL -  SQL은 데이터 사이언스에서 널리 사용되는 관계형 데이터베이스 관리 언어
-  대량의 데이터를 관리하고 분석하는 데 사용되며 구조화된 데이터를 다루는
   데이터 사이언티스트에게 필수적인 언어
-  SQL은 또한 데이터베이스에서 데이터를 추출하고 조작하는 데 사용되므로
  데이터 분석을 위한 중요한 언어
Julia -  Julia는 데이터 과학 커뮤니티에서 빠르게 인기를 얻고 있는 새로운 프로그래밍 언어
-  Julia는 빠르고 효율적으로 설계되어 고성능이 필요한 데이터 과학 작업에 적합
-  Julia는 복잡한 데이터 분석 작업을 쉽게 수행할 수 있는 여러 라이브러리와 도구를 가지고 있음
Scala -  Scala는 데이터 과학에서 사용되는 함수형 프로그래밍 언어
-  Scala는 빅 데이터 처리에 특히 유용하며 복잡한 데이터 분석 작업을 쉽게 수행할 수 있도록 하는
  여러 라이브러리와 도구가 있음
-  Scala는 고성능으로도 알려져 있어 빠른 처리 시간이 필요한 데이터 과학 작업에 적합합니다.
MATLAB -  MATLAB은 데이터 과학에서 널리 사용되는 수치 컴퓨팅 환경 언어
-  MATLAB은 데이터 분석 및 시각화에 사용되며 복잡한 수학적 계산이 필요한 작업에 특히 유용
SAS -  SAS는 데이터 과학에서 널리 사용되는 독점 소프트웨어 제품군
-  SAS는 데이터 분석 및 시각화에 사용되며 복잡한 통계 분석이 필요한 작업에 특히 유용
-  비즈니스 부문에서 일하는 데이터 과학자에게 중요한 언어
Java, Kotlin, 
JavaScript
 

Source : https://www.analyticsinsight.net/top-10-data-science-programming-languages-you-should-know-in-2023/

 

 

프로그래밍 언어 비교

hamannlab (https://www.youtube.com/)

https://youtu.be/qoWdz_ACuSs
If statistics programs/languages were cars... (https://youtu.be/qoWdz_ACuSs)

 

A large-scale study on research code quality and execution

(Source : https://www.nature.com/articles/s41597-022-01143-6)

Most popular code file types on Harvard Dataverse (Oct, 2020)

Stata는 경제, 사회학, 정치학 및 건강 과학에서 사용되는 독점 통계 소프트웨어입니다.

R은 사회과학 분야의 통계학자와 데이터 분석가 사이에서 자주 사용되는 무료 오픈 소스 소프트웨어입니다.


R은 정식 교육 없이도 프로그래밍에 액세스할 수 있게 해주는 통계 명령 언어인 S의 오픈 소스 및 무료 버전으로 시작되었습니다. 

R은 확장 가능한 패키지 시스템으로 인해 적응력이 뛰어나 커뮤니티 중심 개발이 급증했습니다.

상기 연구 결과에 따르면, 학술 목적으로 Stata가 가장 많이 사용되고 있으나, R은 오픈 소스로 무료로 사용할 수 있기 때문에 학술 목적으로 사용 빈도가 매우 높음

`Most frequently used R libraries

모든 데이터 세트에서 가장 자주 사용되는 라이브러리는 플로팅을 위한 ggplot2이며, 
이는 가장 일반적인 작업이 데이터 시각화임을 나타냅니다. 

또 다른 주목할 만한 라이브러리는 데이터를 표 형식으로 관리하고 표시하는 기능을 제공하고 유사하게 데이터 시각화를 제공하는 xtable입니다. 

외부, dplyr, plyr 및 reshape2와 같은 상위 10개 라이브러리 중 많은 라이브러리가 데이터를 가져오고 관리하는 데 사용됩니다. 

마지막으로 그들 중 일부는 stargazer, MASS, lmetest 및 자동차와 같은 통계 분석에 사용됩니다. 


이러한 라이브러리는 R의 핵심 활동인 데이터 관리 및 서식 지정, 데이터 분석, 결과 전달을 위한 시각화 및 테이블 생성을 나타냅니다.
728x90