2024/12/10 5

Python - Pandas(데이터 전처리 : 이상치 탐지 및 처리)

이상치(Outlier) 데이터의 일반적인 패턴에서 벗어난 값을 의미=> 데이터 분석에 부정적인 영향을 미칠 수 있기 때문에, 탐지하고 적절히 처리하는 것이 중요  이상치 탐지 방법기술 통계 기반 이상치 탐지  describe()함수 사용, 데이터의 기본 통계량 확인, 이상치 의심import pandas as pd#에시 데이터프레임 생성data = { '이름' : ['철수','영희','민수','지수','상수'], '나이' : [25,30,22,35,120] #120은 이상치로 의심됨 '점수' : [90,85,95,80,88] }df = pd.DataFrame(data)#기술 통계량 확인df['나이'].describe()평균(mean)과 표준편차(std)가 큰 차이를 보이는 경우, 또는..

Python to AI 2024.12.10

Python - Matplotlib 한글폰트 커스텀컨피그

Matplotlib의 기본 설정 폰트 Sans-serif에 한글이 포함돼있지 않아서 matplotlib뿐만 아니라 얘를 기반으로 하는 라이브러리들을 사용할 때 한글을 지원하는 폰트를 따로 지정해주지 않으면 깨져있는 네모네모를 보며 살아야된다. 뭔 데이터인지 알 수가 없다.근데 또 매번 폰트 지정해주기는 귀찮다. 그렇다고 데이터분석을 때려칠까. ? ㅇ제일 좋은 방법임. 하지만 하고는 싶은데 귀찮은 경우를 위해 (물론 코드 외워버리기, 체화하기, 구글링하기, 메모장에 코드 짱박아놓기, ChatGPT활용하기, 키보드에 단축키로 메크로 설정.. 등등 다양한 방법이 있지만 다 귀찮아서- 나는 이제껏.. 내 노트북 안쓰고 intel에서 제공해주는 컴퓨터 돌려서 걍 바탕화면에 코드조각 늘어놓고 썼다.......ㅋ지금..

Python to AI 2024.12.10

API

API(응용 프로그램 인터페이스, Application Programming Interface) 소프트웨어 간의 상호 작용을 가능하게 하는 도구, 정의 및 프로토콜의 집합  API는 서로 다른 소프트웨어 시스템이나 애플리케이션이 데이터를 교환하거나 기능을 사용할 수 있도록 하는 인터페이스 역할을 한다. API의 주요 개념인터페이스: API는 두 애플리케이션 간의 상호작용 방식을 정의함예) 클라이언트 애플리케이션이 서버의 데이터를 가져오는 방법을 명확히 규정명세 (Specification)요청(Request): 데이터를 요청할 때 필요한 메서드, 경로, 파라미터 등을 명시응답(Response): 요청에 대한 결과로 반환되는 데이터의 구조 정의엔드포인트(Endpoint)API가 제공하는 기능이나 데이터의 접..

OpenAI API 활용 2024.12.10

Python - Pandas(데이터 전처리 : isna(), isnull() )

데이터 전처리 - 결측치 탐지와 다양한 처리 방법  결측치(Missing Value) 탐지Pandas는 결측치를 쉽게 탐지하고 처리할 수 있는 다양한 기능 제공  isna(),  isnull()로 결측치 탐지 데이터프레임의 각 요소가 결측치인지 여부를 확인, 두 함수는 동일한 기능을 함=> 최신 코드에서는 isna()사용권장, 호환성을 유지해야하거나 기존 코드에서 사용중이라면 isnull()사용import pandas as pd#예시 데이터프레임 생성data = { '이름' : ['철수','영희','민수','지수'], '나이' : [25,30,None,35], '직업' : ['학생','회사원','학생',None]}df = pd.DataFrame(data)#결측치 여부 확인df.isna() df.info(..

Python to AI 2024.12.10

스칼라(scalar)

스칼라 크기만을 가진 단일 값수학과 물리학에서 기본적인 개념단일 숫자로 표현됨물리적 단위를 가질 수 있음(kg, ℃)주로 실수로 표현되지만, 복소수나 정수일 수도 있음길이, 질량, 온도, 시간 등데이터 분석과 머신러닝에서 개별 특성값이나 모델 파라미터로 자주 사용됨 스칼라 값이 활용되는 방식(스칼라 값을 모델이나 알고리즘에서 사용하는 방법)모델의 편향(bias) : 신경망에서 각 뉴런의 출력값에 더해지는 단일 숫자활성화 함수의 임계값 : 뉴런이 활성화되기 위한 기준값특성값 : 키(170cm)나 나이(30세) 같은 단일 데이터-> 단일 특성 분석 - 평균, 표준편차 등의 통계적 분석에 사용-> 모델 파라미터 최적화 - 머신러닝 모델의 가중치(weight)와 편향(bias)는 스칼라 값으로 표현됨 예 : 신..

728x90
반응형