본문 바로가기
CSV files with Shell

취지: csv 파일을 다루는데 왜 CLI shell을 쓰는가?

by 거인과난쟁이 2022. 8. 20.

- 파일 중에 확장자가 .csv로 끝나는 것들이 있습니다. https://namu.wiki/w/CSV (나무위키 설명)

- 매일 .csv 파일을 씁니다. 자료를 수집할 때 씁니다. 누군가로부터 자료를 직접 받거나, 또는 누군가 만든 자료를 웹에서 내려받거나 할때 씁니다.

- R에서  read.table() 계열 함수를 사용해서 불러오거나, 아주 간혹 엑셀계열 스프레드시트 프로그램에서 열기도 합니다.

- 곤욕스러울때가 있습니다.

  • 텍스트 데이터가 담긴 파일인 경우: 엑셀계열에서 보기가 불편합니다. 주로  R을 사용하여 읽습니다.
  • 파일 갯수가 많은 경우: 대용량의 자료가 날짜, 시간, 페이지, 분야, 사람별로 쪼개져 있는 상황인데, 엑셀계열에서 하나씩 불러와서 자료를 열기가 불편합니다. 동일한 형식을 취하는 경우 여러개, 수십개, 수백개, 수천개, 때로는 수만개의 .csv 파일을 한꺼번에 불러와서 정리합니다. 주로  R을 사용하여 읽습니다.
  • 파일의 크기가 무척 큰 경우: 엑셀계열에서 열리지 않으면, R로 엽니다. 그러나, 메모리 용량이 작은 (구형) 노트북을 쓰는 경우에는 몇 기가바이트(GB) 크기의 .csv 파일을 열기 어렵습니다.

- 이 카테고리는 CLI shell이라는 작업환경을 통하여 앞서 언급한 곤욕스러운 상황을 대처하는 방법을 정리합니다. 한줄로 표현하면, 왜 데이터과학자는 R, Python 등과 함께 shell을 써야 하는가 입니다. CLI는 Command-Line-Interface의 약자입니다. https://namu.wiki/w/%EC%85%B8(%EC%BB%B4%ED%93%A8%ED%84%B0) <- 나무위키의 쉘 설명

- 늘 그렇지만, 누군가로부터 체계적으로 전달받은 교육과정의 자료정리가 아니고, 또 머리속에 꼼꼼히 정리된 체계화된 경험의 기록정리가 아니기 때문에, 또 어디까지 가야할지도 모르는 과정이라서 서투르고, 틀리고, 찾아오는 분의 입장에서 읽기 불편한 글쓰기일 것입니다. 먼저 양해를 구합니다. 긴 과정을 통하여 조금씩 다듬어지고, 완성도가 높아질 것이라는 것은 약속드립니다.