데이터전처리 3

Scikit-learn

Scikit-learn Python 기반의 강력한 머신러닝 라이브러리 Python으로 작성되었으며, NumPy, SciPy, Matplotlib와 같은 라이브러리와 잘 통합되어 있음설치와 사용이 간단, 사용자 친화적인 API를 제공해 초보자도 쉽게 접근 가능   Scikit-learn이 지원하는 다양한 머신러닝 알고리즘회귀 분석 : 선형 회귀, 리지 회귀, 라쏘 회귀 등분류 : 로지스틱 회귀, SVM, 랜덤 포레스트, KNN 등군집화 : K-means, DBSCAN, 계층적 군집화 등차원 축소 : PCA, t-SNE, LDA 등효율성과 확장성Scikit-learn 대규모 데이터셋 처리와 효율적인 모델 학습을 위해 C와 Cython으로 최적화된 코드를 사용해 속도가 빠름병렬 처리를 지원하는 알고리즘(예: ..

⊢MachineLearning 2024.12.26

Python - Pandas(데이터 전처리: Encoding, Embedding)

Encoding (인코딩) 범주형 데이터(Categorical Data)를 수치형 데이터로 변환하는 과정 많은 머신러닝 모델은 수치형 데이터만 처리할 수 있기 때문에, 범주형 데이터를 인코딩하는 것이 필수적  레이블 인코딩(Lable Encoding)범주형 데이터를 순서가 있는 숫자로 변환, 각 범주에 고유한 숫자가 할당됨 import pandas as pdfrom sklean.preprocessing import LabelEncoder#예시 데이터프레임 생성data = {'과일' : ['사과','바나나', '사과','오렌지','바나나']}df = pd.DataFrame(data)#레이블 인코딩lable_encoder = LabelEncoder()df['과일_인코딩'] = label_encoder.fit..

Python to AI 2024.12.13

Python - Pandas

Pandas; Python에서 데이터를 쉽게 다룰 수 있게 해주는 데이터 분석 라이브러리   데이터를 표(테이블) 형식으로 생성, 가공, 다양한 데이터 조작(필터링, 그룹화, 병합 등) 기능 제공데이터를 정리하고 분석하는 데 강력한 도구데이터 불러오기 및 저장 - CSV, EXCEL, SQL 등 다양한 형식의 데이터를 불러오고 저장    데이터프레임(DataFrame)판다스의 핵심 자료 구조, 엑셀의 스프레드시트처럼 행(row)과 열(column)로 구성된 2차원 데이터 구조 시리즈(Series)단일 열을 나타내는 1차원 데이터 구조, 데이터프레임의 구성 요소 중 하나. => 판다스를 이용하면 데이터의 필터링, 정렬, 집계 등 다양한 작업을 간단한 코드로 수행가능      Pandas 활용 분야 데이터 ..

Python to AI 2024.11.25
728x90