캐글(Kaggle) 및 데이터셋 다운로드
캐글(Kaggle)
데이터 과학 및 머신러닝 경진대회 플랫폼
데이터 사이언티스트 및 머신러닝 엔지니어들이 다양한 문제를 해결하고 데이터 분석 수행
모델 개발을 위한 데이터셋과 도구 제공
- 경진대회: 다양한 데이터 과학 및 머신러닝 문제를 해결하는 대회 개최
- 데이터셋: 다양한 주제의 데이터셋 무료 제공
- 커뮤니티: 데이터 과학자와 머신러닝 엔지니어들이 지식을 공유하고 협업 가능
- 커널(Kernels): Jupyter 노트북과 유사한 웹 기반 코드 실행 환경 제공
캐글 데이터셋 다운로드
캐글 API 설치
pip install kaggle
캐글 API 키 설정
- 캐글 계정에서 API 키 생성 후 로컬 환경에 저장
- API 키는
~/.kaggle/kaggle.json
파일에 저장됨
데이터셋 다운로드
kaggle datasets download -d <dataset-identifier>
*예시 : 타이타닉 데이터셋 다운로드
타이타닉 생존자 예측 경진대회의 데이터셋 다운로드 예제
# 타이타닉 데이터셋 다운로드
kaggle competitions download -c titanic
# 다운로드된 파일 압축 해제
unzip titanic.zip
다운로드한 데이터 불러오기
import pandas as pd
# 타이타닉 데이터셋 불러오기
train_df = pd.read_csv('train.csv')
test_df = pd.read_csv('test.csv')
# 데이터 프레임의 첫 5행 출력
print(train_df.head())
print(test_df.head())
"""
train_df
PassengerId Survived Pclass \
0 1 0 3
1 2 1 1
2 3 1 3
3 4 1 1
4 5 0 3
Name Sex Age SibSp \
0 Braund, Mr. Owen Harris male 22.0 1
1 Cumings, Mrs. John Bradley (Florence Briggs Th... female 38.0 1
2 Heikkinen, Miss. Laina female 26.0 0
3 Futrelle, Mrs. Jacques Heath (Lily May Peel) female 35.0 1
4 Allen, Mr. William Henry male 35.0 0
Parch Ticket Fare Cabin Embarked
0 0 A/5 21171 7.2500 NaN S
1 0 PC 17599 71.2833 C85 C
2 0 STON/O2. 3101282 7.9250 NaN S
3 0 113803 53.1000 C123 S
4 0 373450 8.0500 NaN S
test_df
PassengerId Pclass Name Sex \
0 892 3 Kelly, Mr. James male
1 893 3 Wilkes, Mrs. James (Ellen Needs) female
2 894 2 Myles, Mr. Thomas Francis male
3 895 3 Wirz, Mr. Albert male
4 896 3 Hirvonen, Mrs. Alexander (Helga E Lindqvist) female
Age SibSp Parch Ticket Fare Cabin Embarked
0 34.5 0 0 330911 7.8292 NaN Q
1 47.0 1 0 363272 7.0000 NaN S
2 62.0 0 0 240276 9.6875 NaN Q
3 27.0 0 0 315154 8.6625 NaN S
4 22.0 1 1 3101298 12.2875 NaN S
"""
'⊢MachineLearning' 카테고리의 다른 글
데이터 전처리 실습 흐름/코드 정리 (0) | 2025.03.06 |
---|---|
데이터 전처리(Data Cleaning) (0) | 2025.03.01 |
혼동행렬을 활용한 분류 성능 지표 (1) | 2025.02.02 |
titanic 데이터셋 분석 및 모델 학습 (0) | 2025.01.29 |
Iris 데이터셋과 결정 트리(Decision Tree) 모델 : 평가 방법 비교 및 교차 검증 실습 (0) | 2025.01.24 |