목록Python (7)
동삼이의 노트북

데이터는 한국언론진흥재단의 2020년 08월 한달간의 뉴스기사 메타데이터를 다운받아서 사용하였다. 데이터는 뉴스기사의 주소, 일자, 언론사, 기고자, 분류, 본문 으로 구성되어있으며 키워드를 추출해낸 데이터기 때문에 따로 형태소분석은 진행하지 않았다. df 로 데이터를 불러온 다음 list로 변환해주고 쉼표로 분리된 키워드 값들을 하나의 리스트로 넣어주는 작업을 실시하였다. 다음은 counter 함수를 통해 리스트 내 단어들의 빈도 수를 count해주었다. 코로나 관련기사라 그런지 역시나 코로나가 10000번 이상 언급된 것을 확인할 수 있었다. 빈도 수 별로 카운트한 단어 list로 워드클라우드를 만들어보았다. 일반 폰트는 딱딱해보이기도 하고 워드클라우드가 비어보여서 배달의 민족 주아 폰트를 사용해보았..

글을 작성 중인 2020년 11월 14일 기준, 서울시 전체 확진자 수는 6,579명이다. 전국적으로 매일 세자리 수 확진자를 기록하고 있으며 서울시는 50명 안팍의 코로나 감염자가 매일 발생하고 있다. 서울시 공공 데이터 포털에서 서울시 코로나 19 확진자 현황 csv 파일을 다운받은 뒤 시각화를 진행해 보았다. 받은 데이터의 기본 형태는 다음과 같다. 환자번호와 국적, 환자정보, 이동경로 등은 개인정보등의 이유로 표시되지 않았다. 위 데이터는 11월 9일까지의 정보를 담고 있다. 우선 지역구 별로 확진자의 분포가 어떻게 되는지 알아보았다. (티스토리에 html 첨부하는 법을 몰라 스크린샷으로 대체함) 지역 별 확진자 분포를 시각화해 본 결과, 관악구, 송파구의 확진자 분포가 높고 서울시의 중심이라 확..

Pandas DataFrame 사각형의 dataset. table형태 컬럼과 로우가 있다. 다른 여러가지 데이터들을 여러 컬럼들로 저장할 수 있다. (키, 몸무게, 나이 등) 한 컬럼안의 데이터들은 항상 같은 타입이어야한다. Pandas Series 데이터의 한 컬럼 DataFrame은 여러 Series objects로 구성되어있다. Pandas는 두개의 메인 데이터 스트럭쳐를 가지고 있습니다. Series Series는 1차원의 데이터 배열입니다. 다음과 같이 생성할 수 있습니다. my_list = [2.25, 2.5, 2.75, 3.0] my_list 먼저 List를 생성합니다. data = pd.Series(my_list) data 해당 List로 부터 Series를 생성합니다. data 라는 이름..

Subsetting the Data 데이터 셋을 Subset, 즉 부분집합으로 만들어서 분석을 할 때가 있습니다. 다음은 세가지 일반적인 subset 입니다: by columns by rows by both columns and rows 데이터셋은 이전 글에서 올린 Applewood_2011.csv 데이터를 이용해주겠습니다. Selecting a single column 대괄호 [ ] 안에 컬럼 이름을 따옴표로 묶어서 정확하게 입력해줍니다. df['Location'] location_df = df['Location'] location_df.head() Location 컬럼을 새로운 변수 location_df에 저장해주는 코드입니다. Selecting multiple columns 하나의 컬럼 뿐만 아니라..

Pandas를 이용한 DataFrame 처리를 학습하기에 앞서, Business Analytics의 정의에 대해 짚고 넘어가려고 합니다. Business Analytics (BA)는 특정 비즈니스 분야에 집중한 데이터 사이언스 툴입니다. 데이터 분석 능력도 중요하지만 그 분야의 전문가 수준의 도메인 지식 또한 요구됩니다. 데이터 사이언스는 데이터를 수학적으로 분석하는 통계적 능력, 컴퓨터를 통한 데이터 처리를 할 수 있는 코딩 능력, 마지막으로 해당 분야의 전문적인 도메인 지식을 필요로 합니다. 즉 현재 학습하고 있는 파이썬 코딩 능력만으로는 데이터 사이언스에 있어서 완벽하게 준비된 것이 아닙니다. CRISP-DM model CRoss Industry Standard Process for Data Min..

이 전 글에서 Markdown cell 을 이용하는 법에 대해 배웠습니다. 이번에는 기본적인 Python 코드와 특징들을 알아보겠습니다. 일반적으로 프로그래밍에는 세가지 타입이 있습니다. 첫 째, 코드가 순서대로 진행되는 Sequential 타입이 있습니다. 가장 일반적인 경우의 프로그래밍 타입이며 대부분의 코드들은 위에서 아래로 진행되는 순서를 갖고 있습니다. 예를 들어 다음과 같이 a 라는 변수에 3 을 대입해 줍니다. ( 프로그래밍 언어에서 = 는 같다의 뜻이 아닌 대입해준다 라는 뜻입니다. 왼쪽에 있는 변수에 오른쪽에 있는 값을 대입해주는 형식입니다.) 그 다음 a 변수에 다시 10을 대입해줍니다. a 를 출력해주면 가장 마지막에 대입했던 값인 10이 출력이 됩니다. 두 번째 프로그래밍 타입은 D..