분류 전체보기300 예제 .csv 파일: 눈으로 보기 불편한 텍스트 정보 파일의 경우 - 첨부된 파일에는 신문 기사 정보가 담겨있습니다. - 긴 파일 이름을 갖고 있습니다. 파일 이름에 정보를 넣다보면, 긴 이름이 되는 경우가 흔합니다. 2017년 6월 30일의 신문 기사들 몇개가 담겨있습니다. IT과학분야의 기사들 입니다. N사의 뉴스 포탈 서비스에서 수집한 것입니다. 상업용으로 사용하지는 않습니다. 연구와 공익활동을 위한 보조자료로 활용할 뿐 입니다. - 이 자료를 수집하는데 R을 사용하였습니다. 직접적으로 사용한 패키지는 N2H4 입니다. https://namu.wiki/w/%EC%85%B8(%EC%BB%B4%ED%93%A8%ED%84%B0) 2022. 8. 20. 취지: csv 파일을 다루는데 왜 CLI shell을 쓰는가? - 파일 중에 확장자가 .csv로 끝나는 것들이 있습니다. https://namu.wiki/w/CSV (나무위키 설명) - 매일 .csv 파일을 씁니다. 자료를 수집할 때 씁니다. 누군가로부터 자료를 직접 받거나, 또는 누군가 만든 자료를 웹에서 내려받거나 할때 씁니다. - R에서 read.table() 계열 함수를 사용해서 불러오거나, 아주 간혹 엑셀계열 스프레드시트 프로그램에서 열기도 합니다. - 곤욕스러울때가 있습니다. 텍스트 데이터가 담긴 파일인 경우: 엑셀계열에서 보기가 불편합니다. 주로 R을 사용하여 읽습니다. 파일 갯수가 많은 경우: 대용량의 자료가 날짜, 시간, 페이지, 분야, 사람별로 쪼개져 있는 상황인데, 엑셀계열에서 하나씩 불러와서 자료를 열기가 불편합니다. 동일한 형식을 취하는 경우.. 2022. 8. 20. rename, sed 사용하기 R로 웹 자료를 수집하는 과정을 10년 이상 해온 것 같다. 주로 언론 데이터를 수집하고 분석한다. 많은 자료를 한꺼번에 수집하려고 애쓴적도 있고, 매일매일 조금씩 자료를 모은 적도 있다. 이 과정에서 참으로 많은 스크립트 파일을 만들었다. 일짜별로, 월별로, 연별로, 수집분야별로 말이다. 날짜가 바뀌고, 월이 바뀌고, 연이 바뀌고, 수집 분야가 바뀔 때마다 매번 스크립트를 새롭게 만드는 일은 매우 반복적으로 지루하다. 그렇다고 프로그래밍 테크닉을 이용해서 압축적으로 기호화하면 언제 어디서 발생할 지 모르는 오류를 찾아서 다시 셋팅하는데 위험한 경우에 노출되기도 한다. 그래서 주로 파일 이름을 복사한 이후, 부분 변경하는 방식으로 스크립트 파일들을 만든다. rename 명령어를 사용한다. 스크립프 파일 .. 2022. 8. 9. CentOS7에서 Ubuntu20.04로 R 서버 교체 ('22.08) R 분석 서버 (+ RStudio 서버)를 CentOS7에서 Ubuntu20.04로 바꿔 설치하였습니다. RedHat/CentOS 서버와의 긴 인연을 중단합니다. 비록 노트북 하나에는 Rocky8.6이 설치되어 있으니, RedHat계열과의 절연은 아니지만, 대용량 데이터 분석 서버용으로는 더 이상 관심을 두지 않을듯합니다. 1. Rocky8.6 운영체제는 사용하고 있는 AMD 8cores*2socket 256GB (+ raid 6) 서버용 장비에서 raid 장치를 인식하는데 실패했습니다. (하드웨어 제조사에서 관련 드라이버를 내려받아 추가적인 작업을 하면 될듯하기는 한데, 설치과정에 복잡해지는 것이 귀찮아졌습니다) 2. 리눅스 계열에서 R 패키지의 소스 설치가 귀찮아졌습니다. 시간도 걸리고, 의존성 라이.. 2022. 8. 9. 이전 1 ··· 11 12 13 14 15 16 17 ··· 75 다음