본문 바로가기
CSV files with Shell/CSV file info

.csv 파일에서 사례 정보 찾기

by 거인과난쟁이 2022. 8. 20.
  • wc
  • head
  • tail
  • tr
  • |

- 어느 .csv 파일의 크기를 알았다고 하자.

# 파일 크기 점검하기
ls -s 파일이름.확장자

- 그럼 column(변수) 정보를 알아야 할 것이다. 변수 개수, 변수 목록 등을 알았다고 하자. (이 글의 맨 아래 관련 글 링크가 있다)

- 그 다음은 row(사례) 정보를 알아야 할 것이다. 변수 개수는 사례를 구성하는 요소의 개수이고, 사례의 전체 개수와 개별 사례의 구성 정보를 찾는 법을 알아야 한다. 아래의 파일을 사용하여 연습하자:

https://modernity.tistory.com/entry/%EC%98%88%EC%A0%9C-csv-%ED%8C%8C%EC%9D%BC-%EB%88%88%EC%9C%BC%EB%A1%9C-%EB%B3%B4%EA%B8%B0-%EB%B6%88%ED%8E%B8%ED%95%9C-%ED%85%8D%EC%8A%A4%ED%8A%B8-%EC%A0%95%EB%B3%B4-%ED%8C%8C%EC%9D%BC%EC%9D%98-%EA%B2%BD%EC%9A%B0

 

예제 .csv 파일: 눈으로 보기 불편한 텍스트 정보 파일의 경우

- 첨부된 파일에는 신문 기사 정보가 담겨있습니다. - 긴 파일 이름을 갖고 있습니다. 파일 이름에 정보를 넣다보면, 긴 이름이 되는 경우가 흔합니다. 2017년 6월 30일의 신문 기사들 몇개가 담겨

modernity.tistory.com

  1. 사례 개수 점검하기
# 파일의 첫째 줄이 변수 목록인지 점검하기
head -1 news_IT_732_20170630_1.csv

결과물이 변수목록을 출력하는지 확인하고, 변수 목록이 있다는 가정으로 사례의 개수를 점검하자. 일반적으로 구조화된 csv 파일의 첫줄은 변수목록을 갖는다.

# 사례 개수 점검하기 (아래 결과 값에서 1을 뺀 숫자)
wc -l news_IT_732_20170630_1.csv

결과물의 숫자 21은 변수목록 줄을 포함하고 있다. 21은 변수1 + 사례 20의 구성이라고 생각할 수 있다. 20개의 사례가 포함되어 있다고 판단한다.

  1. 사례 지정하여 보기

20개의 사례가 있음을 알고 있다. 첫번째 사례를 살펴보고자 한다. 20개의 사례가 약 60 KiB의 크기이니 한개 사례의 크기는 대략 3KB가 될 듯하다. 3KB  규모의 텍스트를 보는 것은 시스템에 무리가 되지 않을 듯하다.

# 앞에서 두번째 줄까지 선택하고, 뒤에서 첫째를 선택하기 
# 결국 두번째 줄을 선택하기 기능
head -2  news_IT_732_20170630_1.csv | tail -1

Bash 5.0.17 + Linux (Ubuntu 20.04)

head와 tail의 조합으로 사례 하나를 또는 여러개의 연속된 사례 조합을 선택할 수 있을 것이다.

 - 한편, 각 column(변수)별로 사례 정보를 나누어 줄을 바꿔서 보고 싶은 경우는 다음과 같이 tr 명령어를 추가하면 된다:

# 앞에서 두번째 줄까지 선택하고, 뒤에서 첫째를 선택하기 
# 결국 두번째 줄을 선택하기 기능
# column(변수)별로 사례정보를 줄 바꿔 보기
head -2  news_IT_732_20170630_1.csv | 
tail -1 |
tr "," "\n"

ksh 2020.0.0 + Linux (Ubuntu 20.04)


- 그럼, 구조화된 .csv 데이터 파일에서 크기와  row(사례)의 정보를 알았다면, column(변수)의 정보는 어떻게 알 수 있을까?

https://modernity.tistory.com/entry/cvs-%ED%8C%8C%EC%9D%BC%EC%97%90%EC%84%9C-%EB%B3%80%EC%88%98-%EC%A0%95%EB%B3%B4-%EC%B0%BE%EA%B8%B0

 

.csv 파일에서 변수 정보 찾기

cat ls head wc tr sudo apt install sed # 데비안계열에서 sed 패키지 설치 cat은 매우 중독성이 강한 명령어중 하나이다. 파일 안을 들여다보고 싶을때 말이다. 한눈에 자료를 볼 수 있다면 매우 효과적이다

modernity.tistory.com

 

'CSV files with Shell > CSV file info' 카테고리의 다른 글

.csv 파일에서 변수 정보 찾기  (0) 2022.08.20