ChatGPT 이제 보고, 듣고, 말할 수 있습니다.

September 25, 2023
1878 Views

OpenAI는 ChatGPT에 새로운 음성 및 이미지 기능을 추가하였습니다. 이로써 ChatGPT는 사용자와 음성 대화를 나누거나 사용자가 어떤 것을 이야기하는지 시각적으로 보여줄 수 있는 새로운 직관적인 인터페이스를 제공합니다.

이 음성 및 이미지 기능은 ChatGPT를 보다 다양한 방식으로 활용할 수 있게 해줍니다. 여행 중이라면 랜드마크의 사진을 찍어 관련된 내용에 대해 실시간으로 대화할 수 있습니다. 또한, 집에서는 냉장고나 식료품 보관함의 사진을 찍어 저녁 식사 메뉴를 결정하거나 단계별 레시피를 위해 추가 질문을 할 수 있습니다. 더 나아가 저녁 식사 후에는 자녀에게 수학 문제를 사진으로 찍어 도움을 줄 수도 있습니다. 문제를 강조하고 힌트를 함께 공유할 수 있습니다.

음성 및 이미지 기능은 앞으로 2주 동안 Plus 및 Enterprise 사용자들을 대상으로 서서히 출시될 예정입니다. 음성 기능은 iOS 및 Android에서 이용할 수 있으며, 이미지 기능은 모든 플랫폼에서 사용 가능합니다.

ChatGPT와 음성으로 대화를 나누고 그에 대한 응답을 받을 수도 있습니다. 이동 중에는 ChatGPT와 대화를 나누어 가족을 위한 침대 이야기를 요청하거나 저녁 식사 토론을 해결할 수 있습니다. 음성 기능을 사용하려면 모바일 앱의 설정에서 새로운 기능으로 이동하여 음성 대화에 참여할 수 있도록 설정해야 합니다. 그 후에는 홈 화면의 오른쪽 상단에 위치한 헤드폰 버튼을 탭하여 다섯 가지 다른 음성 중에서 선호하는 음성을 선택할 수 있습니다.

이 새로운 음성 기능은 텍스트와 짧은 샘플 음성만으로도 인간과 유사한 음성을 생성할 수 있는 새로운 텍스트 음성 변환 모델을 기반으로 합니다. OpenAI는 전문 음성 배우들과 협력하여 각각의 음성을 만들었으며, 음성을 텍스트로 변환하기 위해 자사의 오픈소스 음성 인식 시스템인 Whisper를 사용합니다.

또한, ChatGPT는 이미지에 대한 대화도 가능합니다. 사용자는 ChatGPT에게 하나 이상의 이미지를 보여줄 수 있습니다. 예를 들어, 그림이 작동하지 않는 이유를 파악하거나 식료품 보관함의 내용을 확인하여 식사 계획을 세울 수 있습니다. 또한, 업무 관련 데이터의 복잡한 그래프를 분석할 수도 있습니다. 이미지의 특정 부분에 초점을 맞추기 위해서는 모바일 앱의 그리기 도구를 사용할 수 있습니다.

이미지 이해 기능은 다중모델을 사용하여 여러 이미지를 처리할 수 있습니다. OpenAI는 대량의 데이터셋을 사용하여 다양한 이미지 유형과 컨텍스트에 대한 이해력을 향상시켰습니다. 또한, 모델은 이미지에 대한 설명을 생성하기 위해 자연어 처리 기술을 사용합니다.

OpenAI의 연구원들은 이미지와 관련된 질문에 대한 답변을 생성하는 데 초점을 맞추었습니다. 예를 들어, "이 사진은 어디에서 찍혔나요?"나 "이 음식은 어떤 재료로 만들어졌나요?"와 같은 질문에 모델이 적절한 답변을 제공할 수 있습니다.

OpenAI는 ChatGPT의 시각, 청각, 음성 기능을 계속해서 개선하고 확장할 예정입니다. 이를 통해 사용자들은 더욱 풍부한 대화 경험을 할 수 있으며, ChatGPT가 다양한 맥락에서의 유연한 지원을 제공할 수 있습니다.

ChatGPT의 음성 및 이미지 기능은 사용자들에게 새로운 창조적 가능성을 제공합니다. 사용자들은 이를 활용하여 문제 해결, 창작, 학습 등 다양한 분야에서 유용한 도구로 활용할 수 있습니다. OpenAI는 사용자들의 피드백을 수집하고 모델을 계속 개선하기 위해 노력할 것입니다.

ChatGPT의 시각, 청각, 음성 기능은 미래의 AI 기술 발전을 대변하는 중요한 마일스톤입니다. OpenAI는 더 나은 인공지능 시스템을 개발하기 위해 계속해서 연구를 진행하고 사용자들에게 혁신적인 기능을 제공할 것입니다.