본문 바로가기
데이터분석방법론/텍스트마이닝

<적폐네트워크> 분석 개요

by 거인과난쟁이 2018. 10. 22.
빅데이터 프로젝트명, <적폐네트워크> 를 진행했습니다. 결과는 경향신문과의 공동기획기사로 게재되었습니다. 이와 관련한 데이터 분석 방법론/기술을 소개하고자 합니다.




# 분석방법론 절차

[1] 자료 수집 - 언론기사
[2] 자료 정제 - 정규표현식
[3] 자료 요약 - R
[4] 자료 정리 - 전문가 작성

# 분석방법론 기술분야
[1] 언론기사는 네이버와 콘텐츠 제휴를 한 신문-방송-매거진의 기사를 네이버 포탈에서 수집한다. 이른바 웹 크롤링이다.
[2] 특수기호 제거, 단어별 분류 등 정규표현식의 parsing 기법을 사용한다.
[3] 단어별, 연관어별 빈도 등을 시계열로 정리한다. 연관어 네트워크를 만든다. 통계언어 R의 관련 패키지를 사용한다.
[4] 기획초기부터 함께한 정치분야 전문가, 최종 기사화하는 기자와 토론을 통하여 보고서(기사)의 방향과 내용적 특징, 사실 재검토 등을 진행한다.

# <적폐네트워크> 구성 절차

[1] '적폐'라는 단어가 포함된 언론기사를 모두 수집합니다. 본문기준.
[2] 수집된 언론기사의 제목에 나오는 단어별 빈도를 계산하고, 적폐대상 주요 어휘 10개를 선별한다. (전문가의 감수 필수)
[3] 선별된 10대 어휘별로 2차 언론기사(적폐-10대 어휘 )를 수집한다. 본문기준.
[4] 수집된 2차 언론기사의 제목에서 단어별 빈도를 계산하고, 주요 연관어 5개씩을 선별한다. (전문가의 감수 필수)
[5] 수집된 10대분야 5대 주요어휘 총 60개 규모의 노드의 네트워크 분석을 진행한다.

# 분석관련 R 활용 패키지/함수
[1] 자료 수집 - N2H4 (일부수정 및 수집오류 점검 추가)
[2] 자료 정제 - grep, gsub, paste 등 기초 함수와 stringr/stringi 패키지의 속도증가용 함수
[3] 네트워크 - tm, igraph
[4] 매트릭스 연산 - slam

# 분석규모
약 7,620,000건 규모의 기사량
약 17.2 GB 크기