Notice
Recent Posts
Recent Comments
Link
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Tags
more
Archives
Today
Total
관리 메뉴

동삼이의 노트북

코로나19 뉴스 메타데이터 워드클라우드 시각화 본문

Python/데이터 시각화

코로나19 뉴스 메타데이터 워드클라우드 시각화

동삼이 2020. 11. 14. 18:55

데이터는 한국언론진흥재단의 2020년 08월 한달간의 뉴스기사 메타데이터를 다운받아서 사용하였다. 데이터는 뉴스기사의 주소, 일자, 언론사, 기고자, 분류, 본문 으로 구성되어있으며 키워드를 추출해낸 데이터기 때문에 따로 형태소분석은 진행하지 않았다.

 

 

df 로 데이터를 불러온 다음 list로 변환해주고 쉼표로 분리된 키워드 값들을 하나의 리스트로 넣어주는 작업을 실시하였다.

다음은 counter 함수를 통해 리스트 내 단어들의 빈도 수를 count해주었다. 코로나 관련기사라 그런지 역시나 코로나가 10000번 이상 언급된 것을 확인할 수 있었다.

 

빈도 수 별로 카운트한 단어 list로 워드클라우드를 만들어보았다. 일반 폰트는 딱딱해보이기도 하고 워드클라우드가 비어보여서 배달의 민족 주아 폰트를 사용해보았다. 글자가 뚱뚱해서 꽉 차보이는게 맘에 든다.

코로나 관련 뉴스기사 워드클라우드이다 보니 코로나 19, 코로나, 코로나 바이러스 등의 단어 빈도 수가 높았고, 정부, 지원, 계획,사업 등의 정부 사업이나 정책 관련 키워드들도 눈에 띈다. 그 외에 온라인, 마스크, 방역 등 코로나로 인해 언택트 사업이 증가한 만큼 그와 관련한 키워드 들도 확인할 수 있었다. 

 

 

워드클라우드는 그 자체만으로 어떤 강력한 Knowledge는 줄 수 없지만, 해당 주제(본 시각화의 경우 코로나19)에 대한 대략적인 Insight는 얻을 수 있는 것 같다. 또한 지금은 뉴스 기사의 분류와 상관없이 전체 기사를 워드클라우드했지만, 경제, 정치, 문화 분야 별로 세분화하여 워드클라우드하면 각 분야 별 코로나에 대한 영향력도 살펴볼 수 있었을 것이다. 

 

'Python > 데이터 시각화' 카테고리의 다른 글

서울시 코로나 19 확진자 시각화  (0) 2020.11.14
Comments