[R] R을 이용한 엑셀 통계 (2020.03 update) [폐기]

아래 내용은 outdated된 사항으로 아래 내용이 최신입니다.

Jupyter를 이용한 R 통계 세팅 (2022.10 기준)


 

Anaconda 환경 추가

  • jupyter notebook 과 jupyter lab이 함께 설치된다.
  • anaconda prompt 에서 실행한다. -n 뒤에는 환경 이름 (예: rconda)
conda create -n rconda r-essentials r-base
  • 윈도우에서는 conda activate rconda
  • 맥에서는 source activate rconda

패키지 설치에서 발생하는 차이

  • 패키지 설치에서 가끔 문제를 일으킨다. 예를 들어 ‘pROC’ 패키지의 경우, 윈도우에서는  jupyter notebook에서 아래 코드를 직접 쳐서 설치하면 로딩에 문제가 없다.
install.packages('pROC', repos='http://cran.us.r-project.org')
  • 맥에서는 프롬프트에서 아래와 같이 설치해줘야 주피터에서 로딩이 된다.
  • 맥에서 패키지 설치에 대한 검색은 https://anaconda.org/r/r-proc 에서 검색하면 나온다.
conda install -c r r-proc

주로 쓰는 기본 패키지 로딩

  • display 함수 정의는 jupyter notebook 전용 – 깔끔하게 보기 위해서 만들었다.
library(survival)
require(dplyr)
library(psych)
library(gplots)
require(repr)
require(ggplot2)
require(survminer)
library(dendextend)
library(data.table)
require(EnvStats)
library(openxlsx)

display <- function(x)
{
    IRdisplay::display(x)
}

엑셀 불러오기

  • library(openxlsx)
df.basic <- read.xlsx("./data_summm2.xlsx", sheet = 1, startRow = 1, colNames = TRUE)
dim(df.basic)
colnames(df.basic)

변수 기본 분석

  • 연속 변수에서 shapiro.test 로 p<0.05 일 경우 정규분포를 따르지 않음
  • summaryStats 에서 quartile=TRUE 는 IQR을 표시
shapiro.test(df.basic$age_at_op)
summaryStats(df.basic$age_at_op, quartiles=TRUE)

 

BioConductor 설치 (작성중)

  • 윈도우 기준
install.packages("BiocManager", repos='http://cran.us.r-project.org')
BiocManager::install("GSVA")
  • 이렇게 할 경우 다음과 같은 오류가 나온다.
Error: package or namespace load failed for 'GSVA' in loadNamespace(i, c(lib.loc, .libPaths()), versionCheck = vI[[i]]):
 namespace 'rlang' 0.3.4 is already loaded, but >= 0.4.5 is required
  • rlang을 jupyter notebook에서 설치하려고 하면 계속 permission에러가 난다.
  • 이에 프롬프트에서 conda install -c conda-forge r-rlang (0.4.6설치)

 

0 Shares:
Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.