GPT-4o 발표를 보며, 나는 왜 구글 크롬을 떠올렸나

[비즈한국] 오픈AI가 ‘GPT-4o’를 공개했습니다. GPT-4o는 다양한 인공지능 기능을 제공하는 종합적인 어시스턴트로, 음성 대화, 질문 응답, 노래, 카메라를 통한 수학 문제 해결, 소프트웨어 코드 분석, 실시간 통역 등 여러 작업을 수행합니다.

GPT-4o의 데모는 간결하고 명확했습니다. 사실, 이 기능들은 이미 스마트폰과 PC에서 활용되는 것들이며, 인공지능의 도움을 받는 일들입니다. 그러나 GPT-4o는 전 세계를 깜짝 놀라게 했습니다. 무엇이 달랐을까요?

샘 알트먼 오픈AI CEO가 GPT-4o를 소개하고 있다. 사진=오픈AI 발표 화면 캡처

가장 중요한 변화는 실제 사람과 대화를 나누는 것 같은 느낌입니다. 이는 몇 가지 이유에서 비롯됩니다. 첫째, 반응 속도입니다. GPT-4o는 질문에 즉시 답합니다. 애플의 시리, 구글 어시스턴트, 제미니, 심지어 ChatGPT도 완전히 말을 끝낸 후 2~3초의 어색한 공백이 지난 뒤에 반응합니다. 대화의 내용은 고도화되었지만, 이 지연은 당연한 것으로 받아들여졌습니다. 그러나 GPT-4o는 지연 없이 대화를 이어갑니다.

이 공백이 사라지면서 GPT-4o의 대화는 실제 사람과 이야기하는 느낌을 줍니다. 심지어 GPT-4o가 말을 하는 중간에 끼어들어도 맥락이 자연스럽게 이어집니다. 데모를 보는 동안 ‘왜 자꾸 말을 자르지?’라는 불편한 마음이 들었지만, 이는 빠르게 대화를 주고받는 과정을 보여주는 흐름이었습니다. 실제 우리의 대화 패턴과 유사합니다.

또한, GPT-4o는 감정 표현이 풍부합니다. 이야기 중간에 적절한 농담과 웃음을 통해 반응을 보여줍니다. 기술적으로는 LLM 자체가 대화의 맥락을 인지하기 때문에 적절한 감정 표현을 넣는 것은 어렵지 않아 보입니다. 음성 합성 기술 역시 감정을 표현할 수 있는 단계에 접어들었습니다. 하지만 이를 일반인이 사용할 수 있는 범용 모델에 적용한 것은 처음입니다.

2011년 아이폰4s와 함께 시리가 등장하면서 우리는 본격적으로 기계와 대화하기 시작했습니다. 아마존의 알렉사, 구글 어시스턴트 등 수많은 인공지능 어시스턴트들이 우리의 이야기에 귀를 기울여왔습니다. 이들 역시 인공지능 기반으로 학습하고, 음성 인식과 합성으로 적절한 반응을 보여주었습니다. 그러나 기계와 대화한다는 느낌은 지우기 어려웠습니다. GPT-4o는 저지연, 맥락 인지, 감정 표현으로 자연스러운 대화를 만들어냈습니다.

GPT-4o는 ‘im-also-a-good-gpt2-chatbot’으로 불리는 GPT-2 모델을 적용했다고 알려졌습니다. 이 모델은 이미 빠른 반응 속도로 LLM 시장에 충격을 준 바 있습니다. 아마도 그 반응 속도는 작고 성능 좋은 모델과 각 기기에서 인공지능을 처리하는 NPU나 GPU를 통한 온디바이스 처리에 기인한 것으로 보입니다.

사실 GPT-4o가 보여주는 기능들은 이미 ChatGPT를 통해 텍스트로 처리하던 일들입니다. 그러나 이 빠르고 매끄러운 대화가 더해지면서 수학 문제를 함께 풀거나 실시간 통역을 하는 등 사람과 컴퓨터가 반응해야 하는 일들이 전혀 다른 경험을 만들어냅니다.

이는 결국 인공지능 음성 어시스턴트들이 꿈꾸던 기술입니다. 이 시장을 대중에 먼저 선보인 애플, 인공지능에 막대한 투자를 한 구글, 상업적으로 큰 인기를 누린 아마존도 이 정도의 처리를 하지 못했습니다. 어쩌면 '반응성'이 '정확한 정보 전달'에 밀렸던 것일지도 모릅니다.

오픈AI는 GPT로 대규모 언어 모델을 궤도에 올려놓았고, ChatGPT를 통해 자연어 대화의 가능성을 열었습니다. GPT-2 모델과 GPT-4o는 빠른 반응성과 음성, 감정 표현으로 온디바이스 인공지능 어시스턴트로 일상에 접점을 이어갑니다.

오픈AI의 발표는 구글을 떠올리게 합니다. 구글은 PC와 운영체제, 애플리케이션 환경을 웹에서 구현했습니다. 클라이언트 없이 이메일을 열어보고, 오피스 대신 웹에서 문서를 편집하고, 사진과 동영상을 웹에서 처리합니다. 모든 경험이 웹에서 가능하다는 구글의 전제는 크롬 웹 브라우저에서 크롬OS로 이어졌습니다. 결국 웹이 컴퓨팅 경험의 중심이 된다는 것이 구글의 원동력이었습니다.

오픈AI는 이를 인공지능, 특히 멀티모달 기반의 언어 모델로 가져옵니다. 기기 안의 인터넷 환경에서 인공지능 기술이 운영되고, 이는 다시 웹과 하드웨어, 오프라인의 멀티모달 정보까지 접근합니다. 인공지능이 하나의 컴퓨팅 환경이 되고, GPT-4o가 사람과 컴퓨터를 이어주는 접점으로서 운영체제 역할을 합니다.

기존 기업들의 위기를 논하기는 이릅니다. 언어 모델의 발전은 기술뿐만 아니라 적절한 적용이 중요합니다. 오픈AI는 작은 규모로 기존 기업들이 하기 어려운 결정을 기민하게 해내며 앞서가고 있습니다. 인공지능의 방향성과 가능성을 보여주는 것이 오픈AI, 그리고 여러 GPT 모델과 서비스의 가장 큰 의미입니다.

최호섭 IT 칼럼니스트

writer@bizhankook.com

[핫클릭]

· 애플은 왜 '아이패드 프로'에 OLED 패널 두 장을 겹쳤을까
· 애플은 왜 나오지도 않은 양자컴퓨터를 경계할까
· [멋진신세계] 애플의 '비전 컴퓨팅'은 메타버스·VR과 뭐가 다를까
· 서울의 7번째 '애플스토어 홍대' 오픈에 부쳐
· [멋진신세계] 프로보다 센스 있는 선택 '아이폰 15'