- wc
- head
- tail
- tr
- |
- 어느 .csv 파일의 크기를 알았다고 하자.
# 파일 크기 점검하기
ls -s 파일이름.확장자
- 그럼 column(변수) 정보를 알아야 할 것이다. 변수 개수, 변수 목록 등을 알았다고 하자. (이 글의 맨 아래 관련 글 링크가 있다)
- 그 다음은 row(사례) 정보를 알아야 할 것이다. 변수 개수는 사례를 구성하는 요소의 개수이고, 사례의 전체 개수와 개별 사례의 구성 정보를 찾는 법을 알아야 한다. 아래의 파일을 사용하여 연습하자:
- 사례 개수 점검하기
# 파일의 첫째 줄이 변수 목록인지 점검하기
head -1 news_IT_732_20170630_1.csv
결과물이 변수목록을 출력하는지 확인하고, 변수 목록이 있다는 가정으로 사례의 개수를 점검하자. 일반적으로 구조화된 csv 파일의 첫줄은 변수목록을 갖는다.
# 사례 개수 점검하기 (아래 결과 값에서 1을 뺀 숫자)
wc -l news_IT_732_20170630_1.csv
결과물의 숫자 21은 변수목록 줄을 포함하고 있다. 21은 변수1 + 사례 20의 구성이라고 생각할 수 있다. 20개의 사례가 포함되어 있다고 판단한다.
- 사례 지정하여 보기
20개의 사례가 있음을 알고 있다. 첫번째 사례를 살펴보고자 한다. 20개의 사례가 약 60 KiB의 크기이니 한개 사례의 크기는 대략 3KB가 될 듯하다. 3KB 규모의 텍스트를 보는 것은 시스템에 무리가 되지 않을 듯하다.
# 앞에서 두번째 줄까지 선택하고, 뒤에서 첫째를 선택하기
# 결국 두번째 줄을 선택하기 기능
head -2 news_IT_732_20170630_1.csv | tail -1
head와 tail의 조합으로 사례 하나를 또는 여러개의 연속된 사례 조합을 선택할 수 있을 것이다.
- 한편, 각 column(변수)별로 사례 정보를 나누어 줄을 바꿔서 보고 싶은 경우는 다음과 같이 tr 명령어를 추가하면 된다:
# 앞에서 두번째 줄까지 선택하고, 뒤에서 첫째를 선택하기
# 결국 두번째 줄을 선택하기 기능
# column(변수)별로 사례정보를 줄 바꿔 보기
head -2 news_IT_732_20170630_1.csv |
tail -1 |
tr "," "\n"
- 그럼, 구조화된 .csv 데이터 파일에서 크기와 row(사례)의 정보를 알았다면, column(변수)의 정보는 어떻게 알 수 있을까?
'CSV files with Shell > CSV file info' 카테고리의 다른 글
.csv 파일에서 변수 정보 찾기 (0) | 2022.08.20 |
---|