Pandas;
Python에서 데이터를 쉽게 다룰 수 있게 해주는 데이터 분석 라이브러리
- 데이터를 표(테이블) 형식으로 생성, 가공, 다양한 데이터 조작(필터링, 그룹화, 병합 등) 기능 제공
- 데이터를 정리하고 분석하는 데 강력한 도구
- 데이터 불러오기 및 저장 - CSV, EXCEL, SQL 등 다양한 형식의 데이터를 불러오고 저장
데이터프레임(DataFrame)
판다스의 핵심 자료 구조, 엑셀의 스프레드시트처럼 행(row)과 열(column)로 구성된 2차원 데이터 구조
시리즈(Series)
단일 열을 나타내는 1차원 데이터 구조, 데이터프레임의 구성 요소 중 하나.
=> 판다스를 이용하면 데이터의 필터링, 정렬, 집계 등 다양한 작업을 간단한 코드로 수행가능
Pandas 활용 분야
- 데이터 분석
방대한 양의 데이터를 효율적으로 처리, 분석
(통계 분석, 트렌드 파악, 데이터 시각화 등 다양한 작업에 사용)
- 데이터 전처리
결측값 처리, 이상치 제거, 데이터 변환 등
- 비즈니스 인텔리전스(BI)
기업에서 중요한 의사결정을 내리기 위해 데이터에서 인사이트를 도출하는 과정에서 사용
고객 데이터 분석, 판매 데이터 추적 등 분석 작업에 활용
- 금융 데이터 분석
금융 시장 데이터 분석, 투자 전략 수집
주식 가격 데이터, 경제 지표 등을 분석하는 데 강력
- 연구 및 학술 분석
연구 데이터의 수집, 정리, 분석
사회과학, 생명과학 등 다양한 분야에서 데이터를 다루는 연구에 활용
import pandas as pd
#데이터 프레임 생성
data = {'Name' : ['Alice', 'Bob', 'Charlie'],
'Age' : [25, 30, 35],
'City' : ['New York', 'Los Angeles', 'Chicago']}
df = pd.DataFrame(data)
#데이터 프레임의 첫 5행 출력
print(df.head())
#데이터 프레임의 크기 확인
print(df.shape)
#데이터 프레임의 컬럼명 확인
print(df.columns)
#데이터 프레임의 데이터 타입 확인
print(df.dtypes)
#특정 컬럼 선택
print(df['Name'])
#조건에 맞는 행 선택
print(df[df['Age'] > 30])
"""
Name Age City
0 Alice 25 New York
1 Bob 30 Los Angeles
2 Charlie 35 Chicago
(3, 3)
Index(['Name', 'Age', 'City'], dtype='object')
Name object
Age int64
City object
dtype: object
0 Alice
1 Bob
2 Charlie
Name: Name, dtype: object
Name Age City
2 Charlie 35 Chicago
"""
'Python to AI' 카테고리의 다른 글
Python - Pandas(Series/DataFrame) (0) | 2024.11.27 |
---|---|
Python - Pandas설치 및 Conda, Jupyter Notebook, 가상환경과 kernel (1) | 2024.11.26 |
MVT(Model-View-Template) design pattern에 기반을 둔 Django의 architecture (3) | 2024.11.15 |
Django (1) | 2024.11.15 |
Decorator, Context Manager (0) | 2024.11.14 |