[기타] 해외에서 ChatGPT와 AI 목소리 복제를 이용한 실제 포켓몬 도감을 만드는데 성공
HKEBI
2024.02.10 23:47
2,825
0
0
0
5
쿠팡방문하고 계속읽기
본문
프로젝트 소개
- 90년대 애니메이션 시리즈에서 영감을 받아 실제로 작동하는 포켓몬 도감을 재현한 유튜버의 프로젝트
- 포켓몬 도감은 애쉬가 포켓몬을 식별하기 위해 사용한 빨간색 카메라 같은 장치로, 생물을 분석하고 이름과 설명을 음성으로 알려줌
- Abe’s Projects라는 유튜브 채널의 호스트이자 엔지니어인 Abe Haskins는 포켓몬 도감의 기능과 외관을 최대한 재현하고자 함
- 챗GPT-4와 PlayHT라는 온라인 AI 플랫폼을 이용하여 포켓몬의 이미지와 정보를 인식하고 목소리를 복제함
하드웨어 구성
- 카메라 센서, 포켓몬의 이미지를 표시할 작은 화면, 음성을 출력할 스피커, 챗GPT-4와 통신할 수 있는 와이파이가 필요함
- 배터리, USB 포트, 스캔과 종료를 위한 버튼을 추가함
- 3D 프린터로 외관을 제작하고, 애니메이션 버전과 비슷하게 문짝에 틈을 만듦
- 문짝 안쪽의 버튼과 부품은 장식적인 역할이라고 판단하여 구현하지 않음
소프트웨어 개발
- 소프트웨어 설계와 디버깅이 가장 어려운 부분이었다고 함
- PlayHT를 이용하여 포켓몬 도감의 목소리(배우 Nick Stellate)를 쉽게 복제함
- 텍스트를 음성으로 변환하는 소프트웨어는 일부 포켓몬의 이름을 제대로 발음하지 못했지만, 어느 정도 잘 작동함
- 장치가 챗GPT-4에게 카메라 센서의 데이터를 전송하고, 챗GPT-4가 API를 통해 포켓몬의 이미지와 정보를 담고 있는 데이터베이스와 비교함
- 데이터베이스에는 포켓몬의 이름과 함께 비트맵 이미지가 들어 있음
- 작은 흑백 OLED 패널에 이미지가 잘 나타나지만, 텍스트는 때때로 깨져 보임
- 디버깅 과정에서 가장 짜증나고 어려웠던 다섯 가지 버그를 소개함
- 포켓몬의 비트맵 이미지를 로딩하면 장치가 다운되는 현상: 비트맵을 바이트 단위로 읽고 픽셀 단위로 렌더링하는 코드로 다시 작성하여 해결함
- 포켓몬 도감이 말할 때 들리는 틱틱 소리: API 데이터에 정기적으로 나타나는 "1000"이라는 값이 원인이라고 판단하고, 이 값을 제거하여 해결함
- 포켓몬 도감이 잘못된 포켓몬을 인식하는 현상: 챗GPT-4가 데이터베이스의 이미지와 유사도를 계산하는 방식이 문제라고 생각하고, 유사도 임계값을 조정하여 해결함
- 포켓몬 도감이 같은 포켓몬을 여러 번 인식하는 현상: 챗GPT-4가 이미 인식한 포켓몬을 다시 인식하지 않도록 코드를 수정하여 해결함
- 포켓몬 도감이 인식하지 못하는 포켓몬이 있는 현상: 데이터베이스에 포함되지 않은 포켓몬이나, 너무 작거나 희미한 이미지가 원인이라고 판단하고, 이를 개선하기 위해 노력함
프로젝트 결과
- 모든 부분을 조립하고, 포켓몬 도감이 광고대로 작동하고 있는지 확인함
- 대부분의 상황에서 대부분의 포켓몬을 인식할 수 있음
- 유튜브 채널에 프로젝트 과정과 결과를 소개하는 영상을 업로드함
0
0
로그인 후 추천 또는 비추천하실 수 있습니다.
- HKEBI
- 회원등급 : 지하계 / Level 13
포인트 88,160
경험치 16,533
[레벨 13] - 진행률
36%
가입일 :
2020-07-23 00:41:50
댓글목록 0