pandas 10

Python - Pandas(데이터 프레임 구조 재조정)

데이터프레임의 구조를 재조정  데이터를 원하는 형태로 변형 피벗(pivot), 변경(melt), 스택(stack), 언스택(unstack)  pivot()을 사용한 피벗 테이블 생성 pivot()함수는 열 데이터를 행 또는 열로 이동시켜 새로운 데이터프레임을 만듦-데이터를 재구성하고 분석하는 데 매우 유용import pandas as pd#예시 데이터프레임 생성data = { '날짜' : ['2023-01-01', '2023-01-02', 2023-01-01', 2023-01-02'], '도시' : ['서울', '서울', '부산', '부산'], '온도' : [2, 3, 6, 7], '습도' : [55, 60, 80, 85] }df = pd.DataFrame(data)#'도시'를..

Python to AI 2024.12.18

Python - Pandas(다차원데이터관리 : MultiIndex)

멀티 인덱스(MultiIndex) 하나 이상의 인덱스를 사용하여 데이터프레임의 행과 열을 구조화하는 방법  다차원 데이터를 보다 효율적으로 관리하고 분석할 수 있게 해준다.  set_index()로 멀티 인덱스 설정#멀티 인덱스 생성import pandas as pd#예시 프레임 생성data = { '도시' = ['서울', '서울', '부산', '부산'], '년도' = [2021, 2022, 2021, 2022], '인구수' = [970000, 9720000, 3400000, 3450000] } df = pd.DataFrame(data)#'도시'와 '년도'를 멀티 인덱스로 설정df_multi_index = df.set_index(['도시','년도'])df_multi_index ..

Python to AI 2024.12.17

Python - Pandas(데이터 전처리: Encoding, Embedding)

Encoding (인코딩) 범주형 데이터(Categorical Data)를 수치형 데이터로 변환하는 과정 많은 머신러닝 모델은 수치형 데이터만 처리할 수 있기 때문에, 범주형 데이터를 인코딩하는 것이 필수적  레이블 인코딩(Lable Encoding)범주형 데이터를 순서가 있는 숫자로 변환, 각 범주에 고유한 숫자가 할당됨 import pandas as pdfrom sklean.preprocessing import LabelEncoder#예시 데이터프레임 생성data = {'과일' : ['사과','바나나', '사과','오렌지','바나나']}df = pd.DataFrame(data)#레이블 인코딩lable_encoder = LabelEncoder()df['과일_인코딩'] = label_encoder.fit..

Python to AI 2024.12.13

Python - Pandas, Scikit-learn, SciPy(데이터 전처리 : 데이터 정규화와 표준화)

데이터 정규화(Normalization) 데이터의 범위를 0과 1사이로 변환하는 과정서로 다른 범위를 가진 데이터를 동일한 스케일로 맞추어 비교하기 쉽게 만듦   Min-Max 정규화가장 일반적인 정규화 방법각 데이터의 최소값을 0, 최대값을 1로 변환 pip install scikit-learnimport pandas as pdfrom sklearn.preprocessing import MinMaxScaler#예시 데이터프레임 생성data = { '특성1' : [10,20,30,40,50], '특성2' : [1,2,3,4,5] }df = pd.DataFrame(data)#Min-Max 정규화scaler = MinMaxScaler()normalized_df = pd.DataFrame(sc..

Python to AI 2024.12.11

Python - Pandas(데이터 전처리 : isna(), isnull() )

데이터 전처리 - 결측치 탐지와 다양한 처리 방법  결측치(Missing Value) 탐지Pandas는 결측치를 쉽게 탐지하고 처리할 수 있는 다양한 기능 제공  isna(),  isnull()로 결측치 탐지 데이터프레임의 각 요소가 결측치인지 여부를 확인, 두 함수는 동일한 기능을 함=> 최신 코드에서는 isna()사용권장, 호환성을 유지해야하거나 기존 코드에서 사용중이라면 isnull()사용import pandas as pd#예시 데이터프레임 생성data = { '이름' : ['철수','영희','민수','지수'], '나이' : [25,30,None,35], '직업' : ['학생','회사원','학생',None]}df = pd.DataFrame(data)#결측치 여부 확인df.isna() df.info(..

Python to AI 2024.12.10

Python - Pandas(데이터 변형 : 정렬, 병합)

정렬 sort_values()를 사용한 값(Value) 기준 정렬 - 특정 열의 값을 기준으로 데이터 오름차순 또는 내림차순 정렬import pandas as pd#예시 데이터프레임 생성data = { '이름':['철수','영희','민수','지수'], '나이':[25,30,22,35], '직업':['학생','회사원','학생','프리랜서']}df = pd.DataFrame(data)#'나이'기준으로 오름차순 정렬sorted_df = df.sort_values(by='나이')sorted_df #'나이'기준으로 내림차순 정렬sorted_df_desc = df.sort_values(by='나이', ascending=False)sorted_df_desc sort_values()를 사용한 여러 열 ..

Python to AI 2024.12.09

Python - Pandas(feat. titanic.csv)

URL에서 CSV파일을 불러오고, data를 탐색해보자 ! import pandas as pdurl = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'#CSV파일 불러오기df = pd.read_csv(url)#상위 5개 행 미리보기df.head()  #상위 10개 행 미리보기df.head(10)  #하위 데이터 미리보기, 기본값(5개 행)df.tail()  #하위 3개 행 미리보기df.tail(3) 데이터프레임 기본 정보 확인#info()함수 데이터프레임 전체 구조 각 열의 데이터 타입과 null값 여부 확인df.info()#describe() 주요 통계 정보 확인, 숫자형 데이터에 대한 주요 통계 정보 제공d..

Python to AI 2024.12.05

Python - Pandas(feat. CSV, JSON, XLSX, sqlite3)

다양한 형식에서 데이터 불러오기import pandas as pd#CSV 파일 불러오기df_csv = pd.read_csv('data.csv')print(df_csv.head())"""sep: 구분자 지정, 기본값(,)header: 헤더 행 지정, 기본값은 첫번째 행(0)"""#데이터가 탭으로 구분되어 있을 경우df_csv = pd.read_csv('data.csv', sep = '\\t')#URL에서 CSV파일 불러오기url = ''df_csv_url = pd.read_csv(url)print(df_csv_url.head())#Excel파일 불러오기df_excel = pd.read_excel('data.xlsx')print(df_excel.head())"""sheet_name: 읽고자 하는 시트 이름 ..

Python to AI 2024.12.04

Python - Pandas(Series/DataFrame)

시리즈(Series) 1차원 배열과 같은 데이터 구조인덱스(Index)와 데이터 값(Value)이 쌍으로 구성 import pandas as pd#시리즈 생성 예시s = pd.Series([10,20,30,40], index=['a','b','c','d'])print(s)#출력#a 10#b 20#c 30#d 40#dtype: int64s_2=pd.Series([10.0,20,30,40], index=['a','b','c','d'])print(s_2)#출력#a 10.0#b 20.0#c 30.0#d 40.0#dtype: float64 -> 시리즈는 내부적으로 같은 dtype을 가짐s는 value가 모두 정수형으로 시리즈 데이터타입이 int로 출력된 것을 볼 수 있다.s_2는 value 중 10.0만 실수형으..

Python to AI 2024.11.27

Python - Pandas

Pandas; Python에서 데이터를 쉽게 다룰 수 있게 해주는 데이터 분석 라이브러리   데이터를 표(테이블) 형식으로 가공, 다양한 데이터 조작 기능 제공데이터를 정리하고 분석하는 데 강력한 도구    데이터프레임(DataFrame)판다스의 핵심 자료 구조, 엑셀의 스프레드시트처럼 행(row)과 열(column)로 구성된 2차원 데이터 구조 시리즈(Series)단일 열을 나타내는 1차원 데이터 구조, 데이터프레임의 구성 요소 중 하나. => 판다스를 이용하면 데이터의 필터링, 정렬, 집계 등 다양한 작업을 간단한 코드로 수행가능      Pandas 활용 분야 데이터 분석방대한 양의 데이터를 효율적으로 처리, 분석(통계 분석, 트렌드 파악, 데이터 시각화 등 다양한 작업에 사용)데이터 전처리결측값 ..

Python to AI 2024.11.25
728x90
반응형