본문 바로가기

CSV files with Shell4

.csv 파일에서 사례 정보 찾기 wc head tail tr | - 어느 .csv 파일의 크기를 알았다고 하자. # 파일 크기 점검하기 ls -s 파일이름.확장자 - 그럼 column(변수) 정보를 알아야 할 것이다. 변수 개수, 변수 목록 등을 알았다고 하자. (이 글의 맨 아래 관련 글 링크가 있다) - 그 다음은 row(사례) 정보를 알아야 할 것이다. 변수 개수는 사례를 구성하는 요소의 개수이고, 사례의 전체 개수와 개별 사례의 구성 정보를 찾는 법을 알아야 한다. 아래의 파일을 사용하여 연습하자: https://modernity.tistory.com/entry/%EC%98%88%EC%A0%9C-csv-%ED%8C%8C%EC%9D%BC-%EB%88%88%EC%9C%BC%EB%A1%9C-%EB%B3%B4%EA%B8%B0-%EB%B.. 2022. 8. 20.
.csv 파일에서 변수 정보 찾기 cat ls head wc tr | sudo apt install sed # 데비안계열에서 sed 패키지 설치 cat은 매우 중독성이 강한 명령어중 하나이다. 파일 안을 들여다보고 싶을때 말이다. 한눈에 자료를 볼 수 있다면 매우 효과적이다. 그러나 복잡한 구조를 가진 데이터 파일이라면 무용지물이다. 한눈에 볼 수 없는 크기의 파일이라면 효과가 제한적이다. 게다가 만약 크기가 매우 큰 파일이라면, 시스템에 부담을 줄 수도 있다. cat을 쓰지 않고, 데이터 파일의 구조와 정보를 파악해야하는 경우가 매우 흔하다. - 데이터 구조와 정보는 무엇일까? 이 질문에 정교하게 답을 하고 싶지 않다. 분석 과정에서 필요한 것이 정보 아닐까한다. 굳이 비교하자면, R의 str() 또는 한눈에 볼 수 있는 규모로 축소된.. 2022. 8. 20.
예제 .csv 파일: 눈으로 보기 불편한 텍스트 정보 파일의 경우 - 첨부된 파일에는 신문 기사 정보가 담겨있습니다. - 긴 파일 이름을 갖고 있습니다. 파일 이름에 정보를 넣다보면, 긴 이름이 되는 경우가 흔합니다. 2017년 6월 30일의 신문 기사들 몇개가 담겨있습니다. IT과학분야의 기사들 입니다. N사의 뉴스 포탈 서비스에서 수집한 것입니다. 상업용으로 사용하지는 않습니다. 연구와 공익활동을 위한 보조자료로 활용할 뿐 입니다. - 이 자료를 수집하는데 R을 사용하였습니다. 직접적으로 사용한 패키지는 N2H4 입니다. https://namu.wiki/w/%EC%85%B8(%EC%BB%B4%ED%93%A8%ED%84%B0) 2022. 8. 20.
취지: csv 파일을 다루는데 왜 CLI shell을 쓰는가? - 파일 중에 확장자가 .csv로 끝나는 것들이 있습니다. https://namu.wiki/w/CSV (나무위키 설명) - 매일 .csv 파일을 씁니다. 자료를 수집할 때 씁니다. 누군가로부터 자료를 직접 받거나, 또는 누군가 만든 자료를 웹에서 내려받거나 할때 씁니다. - R에서 read.table() 계열 함수를 사용해서 불러오거나, 아주 간혹 엑셀계열 스프레드시트 프로그램에서 열기도 합니다. - 곤욕스러울때가 있습니다. 텍스트 데이터가 담긴 파일인 경우: 엑셀계열에서 보기가 불편합니다. 주로 R을 사용하여 읽습니다. 파일 갯수가 많은 경우: 대용량의 자료가 날짜, 시간, 페이지, 분야, 사람별로 쪼개져 있는 상황인데, 엑셀계열에서 하나씩 불러와서 자료를 열기가 불편합니다. 동일한 형식을 취하는 경우.. 2022. 8. 20.