본문 바로가기
CSV files with Shell/CSV 예제 파일

예제 .csv 파일: 눈으로 보기 불편한 텍스트 정보 파일의 경우

by 거인과난쟁이 2022. 8. 20.

- 첨부된 파일에는 신문 기사 정보가 담겨있습니다.

news_IT_732_20170630_1.csv
0.06MB

- 긴 파일 이름을 갖고 있습니다. 파일 이름에 정보를 넣다보면, 긴 이름이 되는 경우가 흔합니다. 2017년 6월 30일의 신문 기사들 몇개가 담겨있습니다.  IT과학분야의 기사들 입니다. N사의 뉴스 포탈 서비스에서 수집한 것입니다. 상업용으로 사용하지는 않습니다. 연구와 공익활동을 위한 보조자료로 활용할 뿐 입니다.

- 이 자료를 수집하는데 R을 사용하였습니다. 직접적으로 사용한 패키지는 N2H4 입니다. https://namu.wiki/w/%EC%85%B8(%EC%BB%B4%ED%93%A8%ED%84%B0) <-  개발자 박찬엽님의  N2H4 패키지의 github 저장소

- 10년 이상 신문기사를 수집하고, 분석하고, 연구하는 일을 합니다. 거짓말 조금 (아니 많이) 보태서 거의 매일 텍스트 마이닝을 하고 있다고 말할 수 있습니다. 이 과정에서 신문기사 자료 수집용으로 여러개의 수집 도구를 사용해보았습니다. 지적 자극을 받을 정도로 모두 좋았습니다. 시간이 흘러 흘러 언론 빅데이터 환경이 발전하였고, N사를 비롯하여 인터넷 포탈의 뉴스 서비스를 둘러싼 격렬한 논쟁과 정책 변경으로 신문기사 수집 스크립트들도 변화를 거듭했습니다. 오랜기간 관리를 해오신 박찬엽님께 감사하는 마음입니다.

- 첨부된 파일은 다음과 같은 데이터 분석 상황과 연관성을 가집니다

  • 텍스트 정보를 담고 있는 .csv 파일
  • 엑셀계열로 보기 불편한 긴 텍스트 (신문 기사) 정보
  • 한글, 영어, 특수기호 등이 포함되어 자료 정제가 필요한 정보
  • 한눈에 정보가 들어오지 않는 긴 분량의 자료 사례
  • 화면하나에 정보를 모두 볼 수 없는 큰 분량의 자료 사례