동삼이의 노트북
코로나19 뉴스 메타데이터 워드클라우드 시각화 본문
데이터는 한국언론진흥재단의 2020년 08월 한달간의 뉴스기사 메타데이터를 다운받아서 사용하였다. 데이터는 뉴스기사의 주소, 일자, 언론사, 기고자, 분류, 본문 으로 구성되어있으며 키워드를 추출해낸 데이터기 때문에 따로 형태소분석은 진행하지 않았다.
df 로 데이터를 불러온 다음 list로 변환해주고 쉼표로 분리된 키워드 값들을 하나의 리스트로 넣어주는 작업을 실시하였다.
다음은 counter 함수를 통해 리스트 내 단어들의 빈도 수를 count해주었다. 코로나 관련기사라 그런지 역시나 코로나가 10000번 이상 언급된 것을 확인할 수 있었다.
빈도 수 별로 카운트한 단어 list로 워드클라우드를 만들어보았다. 일반 폰트는 딱딱해보이기도 하고 워드클라우드가 비어보여서 배달의 민족 주아 폰트를 사용해보았다. 글자가 뚱뚱해서 꽉 차보이는게 맘에 든다.
코로나 관련 뉴스기사 워드클라우드이다 보니 코로나 19, 코로나, 코로나 바이러스 등의 단어 빈도 수가 높았고, 정부, 지원, 계획,사업 등의 정부 사업이나 정책 관련 키워드들도 눈에 띈다. 그 외에 온라인, 마스크, 방역 등 코로나로 인해 언택트 사업이 증가한 만큼 그와 관련한 키워드 들도 확인할 수 있었다.
워드클라우드는 그 자체만으로 어떤 강력한 Knowledge는 줄 수 없지만, 해당 주제(본 시각화의 경우 코로나19)에 대한 대략적인 Insight는 얻을 수 있는 것 같다. 또한 지금은 뉴스 기사의 분류와 상관없이 전체 기사를 워드클라우드했지만, 경제, 정치, 문화 분야 별로 세분화하여 워드클라우드하면 각 분야 별 코로나에 대한 영향력도 살펴볼 수 있었을 것이다.
'Python > 데이터 시각화' 카테고리의 다른 글
서울시 코로나 19 확진자 시각화 (0) | 2020.11.14 |
---|