⊢ AI 모델 활용 16

음성 생성과 번역을 활용한 데스크톱 번역기

PyQt5, Hugging Face Transformers, Eleven Labs API 활용영어 → 한국어 자동 번역번역된 텍스트 → 음성 변환변환된 음성 → 재생GUI 인터페이스 제공번역영어 문장을 입력하면 NLLB-200 모델로 한국어로 번역음성 생성번역된 문장을 Eleven Labs API로 음성(mp3)으로 변환음성 재생생성된 mp3 파일을 PyDub으로 재생GUI 구성PyQt5로 사용자 인터페이스 구성 (입력, 버튼, 출력 등) pip install requests PyQt5 pydub dotenv transformers torch torchaudio torchmedia  필요 라이브러리import osimport requestsfrom dotenv import load_dotenvfrom P..

ChatGPT, FastAPI 활용 챗 서비스 구현

웹 클라이언트(UI) 구성FastAPI 서버 구현OpenAI API를 통한 챗봇 응답 처리대화 상태 관리 전체 구성요소 요약.├── README.md└── fastgpt ├── __pycache__ │ └── app.cpython-310.pyc ├── app.py ├── static │ └── style.css └── templates └── index.html index.html 사용자 인터페이스 (입력창 + 대화 내역 표시)style.css 인터페이스의 스타일 정리app.py FastAPI 서버, OpenAI API 연동, 대화 흐름 관리temlplages/ HTML 템플릿 디렉토리static/ 정적 파일 디렉토리 (CSS 포함)   HTML 템플릿..

OpenCV, YOLOv8, PyQt5활용 실시간 객체 탐지 서비스 구현

OpenCV와 YOLOv8을 활용한 실시간 객체 탐지 서비스 구현 OpenCV와 최신 YOLOv8 모델, 그리고 PyQt5를 활용하여 실시간 객체 탐지 GUI 프로그램을 만듦  사용 기술 스택 객체 탐지 YOLOv8 (ultralytics 라이브러리)영상 처리 OpenCV (cv2)GUI 구성 PyQt5 (QWidget, QLabel, QPushButton, QVBoxLayout) *PyQt5Python에서 데스크탑 애플리케이션(GUI 앱)을 만들 수 있게 해주는 라이브러리QWidget모든 GUI 요소의 기본 (창, 버튼 등)QLabel텍스트나 이미지 보여주는 위젯QPushButton클릭 가능한 버튼QVBoxLayout위에서 아래로 위젯 정렬하는 레이아웃QTimer일정 시간마다 반복적으로 이벤트 실행 (..

FastAI: 사전 학습된 모델을 활용한 이미지 분류

FastAI 딥러닝을 빠르고 쉽게 할 수 있게 만들어진 고수준의 Python 라이브러리기본적으로 PyTorch 위에 만들어졌고, 복잡한 코드 없이도 빠르게 모델을 만들고 학습, 평가, 예측할 수 있게 도와줌 간결한 코드: 몇 줄만으로도 데이터 전처리, 모델 학습, 평가 가능전이학습 기본 내장: resnet, vgg 같은 사전 학습 모델 바로 사용다양한 모듈 지원: vision, text, tabular, collaborative filtering 등자동 최적화: 학습률 찾기, 데이터 증강, 조기 종료 등 자동 적용PyTorch 기반: PyTorch의 유연성과 강력함을 그대로 활용 가능 주요 모듈 fastai.vision.all이미지 분류, 객체 탐지 등 비전 관련fastai.text.all텍스트 분류, ..

Ultralytics YOLOv8를 활용한 이미지 및 실시간 객체 탐지

YOLO(You Only Look Once) 이미지에서 객체의 위치와 클래스를 한 번에 예측하는 고속 객체 탐지 모델 한 번에 예측: 이미지를 격자(Grid)로 나누고, 각 영역에서 객체 유무와 위치를 동시에 예측실시간 가능: 빠른 처리 속도로 영상 스트리밍에 활용 가능다중 객체 인식: 하나의 이미지에서 여러 객체를 동시에 탐지 가능 YOLOv8 Ultralytics에서 제공하는 객체 탐지(Object Detection) 분야에서 실시간 처리와 높은 정확도를 모두 갖춘 최신 딥러닝 모델 보안, 스마트 팩토리, 자율 주행 등 다양한 실시간 컴퓨터 비전 시스템에 유용  Ultralytics YOLOv8을 활용한 이미지 및 실시간 객체 탐지 환경 설정 YOLOv8 설치pip install ultralytics..

ChatGPT와 ElevenLabs실습: 텍스트에서 음성까지

OpenAI(ChatGPT) API를 통해 질문에 대한 응답 생성ElevenLabs TTS API를 통해 텍스트 →  음성 변환사용자 입력 → ChatGPT 응답 → 음성 출력까지 자동 처리: 텍스트 입력 → AI 응답 생성 → 음성 출력 멀티모달 파이프라인 구성 ChatGPT API를 사용한 질의응답 프로그램 실시간 대화형 버전from openai import OpenAIimport openaiimport osopenai.api_key = os.environ.get("OPENAI_API_KEY0")client = OpenAI(api_key=openai.api_key) # OpenAI 클라이언트 생성system_message = { "role": "system", "content": "너는 ..

FastAPI를 활용한 API 구축

머신 러닝 모델 서빙(Serving) 학습이 완료된 모델을 외부 애플리케이션에서 사용할 수 있도록 제공하는 과정  작동 흐름사용자가 입력 데이터를 보냄 (ex. 이미지, 텍스트 등)서버가 모델에 데이터를 전달해 예측 수행예측 결과를 응답으로 반환→ 처리를 외부에서 접근할 수 있도록 하려면 API(Application Programming Interface)를 만들어야 함  RESTful API REST(Representational State Transfer) 아키텍처 스타일을 따르는 APIHTTP를 통해 클라이언트와 서버 간에 데이터를 주고받는 방식 RESTful API는 리소스에 접근하기 위한 경로(Path)와 메서드 조합으로 동작함→ 경로에 포함된 매개변수를 통해 다양한 작업을 수행할 수 있음 HT..

Stable Diffusion을 활용한 이미지 생성

Stable Diffusion 텍스트 설명을 입력하면 이미지를 생성하는 인공지능 모델(Text-to-Image) 입력 : 자연어 텍스트 (prompt)출력: 고해상도 이미지 (512x512 이상 가능)라이선스: 오픈소스(MIT 기반), 누구나 사용 가능학습 데이터: LAION-5B라는 대규모 텍스트-이미지 페어 데이터셋  작동 방식노이즈 이미지를 준비텍스트를 보고 어떤 이미지를 원하는지 파악노이즈를 점점 제거하면서 이미지를 만들어냄→ 이 과정을 Diffusion(확산)과정이라고 부름  stable diffusion 모델 설치pip install diffusers transformers torch 이미지 생성from diffusers import StableDiffusionPipelineimport tor..

생성형 모델의 기본 원리 - 랜덤성(Randomness)과 조건성(Conditionality)

랜덤성(Randomness)과 조건성(Conditionality) 랜덤성(Randomness) 같은 입력에도 다양한 출력을 생성하게 만드는 요소 생성형 모델은 확률 분포(probability distribution)에 따라 출력을 선택함→ 텍스트 생성에서, 다음 단어를 예측할 때 여러 후보 중에서 확률적으로 선택 랜덤성 조절 (예: GPT-3)import openaiopenai.api_key = 'api-key'response = openai.Completion.create( engine="text-davinci-003", prompt="Once upon a time, there was a friendly robot who", max_tokens=50, temperature=0.7 ..

생성형 AI(Generative AI)

생성형 AI(Generative AI) 입력을 바탕으로 새로운 결과물을 만들어내는 AI텍스트 생성 모델몇 개의 단어를 입력하면 자연스러운 문장을 이어 생성GPT-3, ChatGPT 등이미지 생성 모델텍스트나 스케치를 바탕으로 이미지 생성DALL·E, Stable Diffusion 등음악 생성 모델멜로디 입력에 따라 음악을 작곡Magenta 등창의적인 작업을 도와주며, 예술·콘텐츠·디자인 등 다양한 분야에 활용되고 있음  생성형 AI 개발의 어려움  대규모 데이터와 연산 자원 수십억 개의 파라미터를 학습하는 딥러닝 기반 모델이기 때문에 방대한 데이터와 고성능 GPT/TPU가 필요함 텍스트 생성: 수십~수백GB 이상의 문서 데이터이미지 생성: 이미지와 그 설명이 함께 포함된 수십만~수백만 개의 데이터셋→ 개..

728x90