Python to AI

Python - Pandas

최 수빈 2024. 11. 25. 13:15

 

 

Pandas;

Python에서 데이터를 쉽게 다룰 수 있게 해주는 데이터 분석 라이브러리

 

 

 

  • 데이터를 표(테이블) 형식으로 생성, 가공, 다양한 데이터 조작(필터링, 그룹화, 병합 등) 기능 제공
  • 데이터를 정리하고 분석하는 데 강력한 도구
  • 데이터 불러오기 및 저장 - CSV, EXCEL, SQL 등 다양한 형식의 데이터를 불러오고 저장

 

 

 

 

데이터프레임(DataFrame)

판다스의 핵심 자료 구조, 엑셀의 스프레드시트처럼 행(row)과 열(column)로 구성된 2차원 데이터 구조

 

시리즈(Series)

단일 열을 나타내는 1차원 데이터 구조, 데이터프레임의 구성 요소 중 하나. 

=> 판다스를 이용하면 데이터의 필터링, 정렬, 집계 등 다양한 작업을 간단한 코드로 수행가능

 

 

 

 

 

 

Pandas 활용 분야

 

  • 데이터 분석

방대한 양의 데이터를 효율적으로 처리, 분석

(통계 분석, 트렌드 파악, 데이터 시각화 등 다양한 작업에 사용)

  • 데이터 전처리

결측값 처리, 이상치 제거, 데이터 변환 등

  • 비즈니스 인텔리전스(BI)

기업에서 중요한 의사결정을 내리기 위해 데이터에서 인사이트를 도출하는 과정에서 사용

고객 데이터 분석, 판매 데이터 추적 등 분석 작업에 활용 

  • 금융 데이터 분석

금융 시장 데이터 분석, 투자 전략 수집

주식 가격 데이터, 경제 지표 등을 분석하는 데 강력

  • 연구 및 학술 분석

연구 데이터의 수집, 정리, 분석

사회과학, 생명과학 등 다양한 분야에서 데이터를 다루는 연구에 활용

 

import pandas as pd

#데이터 프레임 생성
data = {'Name' : ['Alice', 'Bob', 'Charlie'],
        'Age' : [25, 30, 35],
        'City' : ['New York', 'Los Angeles', 'Chicago']}
df = pd.DataFrame(data)

#데이터 프레임의 첫 5행 출력
print(df.head())

#데이터 프레임의 크기 확인
print(df.shape)

#데이터 프레임의 컬럼명 확인
print(df.columns)

#데이터 프레임의 데이터 타입 확인
print(df.dtypes)

#특정 컬럼 선택
print(df['Name'])

#조건에 맞는 행 선택
print(df[df['Age'] > 30])

"""
      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago
(3, 3)
Index(['Name', 'Age', 'City'], dtype='object')
Name    object
Age      int64
City    object
dtype: object
0      Alice
1        Bob
2    Charlie
Name: Name, dtype: object
      Name  Age     City
2  Charlie   35  Chicago
"""