• 북마크
  • 접속자 116
IT 노하우 뉴스 정보 공유 커뮤니티

IT 노하우 뉴스 정보 공유 커뮤니티

Mobile

[기타] 해외에서 ChatGPT와 AI 목소리 복제를 이용한 실제 포켓몬 도감을 만드는데 성공

HKEBI 레벨
2024.02.10 23:47 2,822 0 0 0
5
쿠팡방문하고 계속읽기

본문

프로젝트 소개

  • 90년대 애니메이션 시리즈에서 영감을 받아 실제로 작동하는 포켓몬 도감을 재현한 유튜버의 프로젝트
  • 포켓몬 도감은 애쉬가 포켓몬을 식별하기 위해 사용한 빨간색 카메라 같은 장치로, 생물을 분석하고 이름과 설명을 음성으로 알려줌
  • Abe’s Projects라는 유튜브 채널의 호스트이자 엔지니어인 Abe Haskins는 포켓몬 도감의 기능과 외관을 최대한 재현하고자 함
  • 챗GPT-4와 PlayHT라는 온라인 AI 플랫폼을 이용하여 포켓몬의 이미지와 정보를 인식하고 목소리를 복제함

2024-02-10 23 46 36.png

하드웨어 구성

  • 카메라 센서, 포켓몬의 이미지를 표시할 작은 화면, 음성을 출력할 스피커, 챗GPT-4와 통신할 수 있는 와이파이가 필요함
  • 배터리, USB 포트, 스캔과 종료를 위한 버튼을 추가함
  • 3D 프린터로 외관을 제작하고, 애니메이션 버전과 비슷하게 문짝에 틈을 만듦
  • 문짝 안쪽의 버튼과 부품은 장식적인 역할이라고 판단하여 구현하지 않음

소프트웨어 개발

  • 소프트웨어 설계와 디버깅이 가장 어려운 부분이었다고 함
  • PlayHT를 이용하여 포켓몬 도감의 목소리(배우 Nick Stellate)를 쉽게 복제함
  • 텍스트를 음성으로 변환하는 소프트웨어는 일부 포켓몬의 이름을 제대로 발음하지 못했지만, 어느 정도 잘 작동함
  • 장치가 챗GPT-4에게 카메라 센서의 데이터를 전송하고, 챗GPT-4가 API를 통해 포켓몬의 이미지와 정보를 담고 있는 데이터베이스와 비교함
  • 데이터베이스에는 포켓몬의 이름과 함께 비트맵 이미지가 들어 있음
  • 작은 흑백 OLED 패널에 이미지가 잘 나타나지만, 텍스트는 때때로 깨져 보임
  • 디버깅 과정에서 가장 짜증나고 어려웠던 다섯 가지 버그를 소개함
    • 포켓몬의 비트맵 이미지를 로딩하면 장치가 다운되는 현상: 비트맵을 바이트 단위로 읽고 픽셀 단위로 렌더링하는 코드로 다시 작성하여 해결함
    • 포켓몬 도감이 말할 때 들리는 틱틱 소리: API 데이터에 정기적으로 나타나는 "1000"이라는 값이 원인이라고 판단하고, 이 값을 제거하여 해결함
    • 포켓몬 도감이 잘못된 포켓몬을 인식하는 현상: 챗GPT-4가 데이터베이스의 이미지와 유사도를 계산하는 방식이 문제라고 생각하고, 유사도 임계값을 조정하여 해결함
    • 포켓몬 도감이 같은 포켓몬을 여러 번 인식하는 현상: 챗GPT-4가 이미 인식한 포켓몬을 다시 인식하지 않도록 코드를 수정하여 해결함
    • 포켓몬 도감이 인식하지 못하는 포켓몬이 있는 현상: 데이터베이스에 포함되지 않은 포켓몬이나, 너무 작거나 희미한 이미지가 원인이라고 판단하고, 이를 개선하기 위해 노력함

프로젝트 결과

  • 모든 부분을 조립하고, 포켓몬 도감이 광고대로 작동하고 있는지 확인함
  • 대부분의 상황에서 대부분의 포켓몬을 인식할 수 있음
  • 유튜브 채널에 프로젝트 과정과 결과를 소개하는 영상을 업로드함
0 0
로그인 후 추천 또는 비추천하실 수 있습니다.

댓글목록 0

등록된 댓글이 없습니다.