본문 바로가기

R/R terminal mode14

source()를 이용하여 .R in .R 처리하기 R에서 source() 를 활용하여 여러개의 명령을 한번에 사용하는 경우가 흔하다. 파일이름.R 스크립트를 먼저 만들어야한다. 내 경우는, 연도별, 월별, 일별, 때로는 36개 주기별로 동일한 함수를 반복해서 실행해야 하는 경우가 참 많아서 source()를 매우 효율적으로 사용해야 한다. 대용량 텍스트 데이터를 처리하는 과정에서, 주로 크롤링 과정에서는 여러개의 R 창에서 동시적으로 source()를 실행하여 12시간 가량을 쓰기도 한다. 코어가 많은 cpu가 효율적인 경우가 이 상황이다. 10개 가량의 R을 띄우는 경우도 흔하다. 그런데, 처리 양이 적은 .R을 따로 작성하고, 매번 불러와서 source()를 실행하는 것이 지겨워지는 상황이 왔다. 예를 들어, 1년을 36개의 주기로 만들고, 각각을 .. 2020. 5. 1.
tidyverse 의존성 패키지 목록 tidyverse 패키지를 설치할 경우 우분투(스튜디오/데비안 계열)에서는 sudo apt-get install libcurl4-openssl-dev libssl-dev libxml2-dev libgeos-dev libgmp-dev libmariadbclient-dev 을 먼저 설치해야 한다. 그 다음에, install.packages("tidyverse", dep=T) 2019. 1. 28.
R + Crontab - Scheduling Rscript [상황] R의 분석 플랫폼으로 리눅스 CentOS7을 사용한다. 매일 매일 반복되는 작업이 있다. 온라인 언론기사 수집과 관련된 일이다. Rscript 파일, .R에 반복작업에 대한 정보가 담겨있는데, 매일 밤 12시, 자정이 넘어 스크립트를 실행하고자 Rstudio 프로그램을 열고 작업을 반복하는 것이 지루해졌다. 그래서, 정해진 시간에 자동으로 R 스크립트를 실행하는 기능을 사용한다: Crontab 이다. $ sudo crontab -u 유저이름 -e #유저수준에서 crontab을 실행하여 편집할 준비를 한다. vi에서 crontab 파일이 열리는데, i 로 입력창으로 전환하고, crontab 사용법에 맞는 규칙성이 있는 일정을 넣고, Rscript /home/사용자/이하경로/파일이름.R 을 입력하고.. 2018. 11. 23.
R 12개를 동시에 (CentOS7, mem 256GB, cpu 16 core) 작은 규모의 분석 12개를 동시에 진행한다. 1년짜리, 12개월치 자료를 월별로 진행하는 것이다. 8cores*2 cpu256 GB 2016. 12. 25.