기계와 대화하는 삶의 시작점, AI 스피커

“내 80년 촉을 무시하고, 내 흥을 다 깨불고, 날 실없게 맨드는 너! 근데 밉지가 않다~”

마치 누군가를 향한 투정 같다. 하지만 투정의 상대는 놀랍게도 사람이 아니다. AI 스피커다. 아니, 사람이 AI 스피커에 투정을 부리다니! 결코 있을 수 없는 일이라 생각할 수도 있다. TV 광고니까 재미로 상황을 만든 것이라고 여길 지도 모른다. 하지만 영화에서나 볼 수 있던 이런 모습들은 사실 AI 스피커를 쓰는 사람들이라면 조용히 공감하는 부분일 게다. 사람끼리 대화하는 듯한 상호작용의 복제일 뿐인데도 AI 스피커에 적응하고 있는 사람들에게는 낯선 장면이 아닌 것이다. 그리고 AI 스피커에 익숙해지는 세대는 점점 더 성장해가고 있다.

늘어나는 AI 스피커와 대화의 시간

스마트폰에 실행하던 인공 지능 기반 음성 비서를 스피커에 넣어 대중화를 실험했던 미국과 비교하면 우리의 AI 스피커는 조금 늦게 닻을 올렸다. 한국의 첫 AI 스피커가 소개된 것이 3년 전이라는 사실을 감안하면 국내 AI 스피커 시장은 여전히 초기에 가까운 셈이다. 하지만 보급은 의외로 빠르게 이뤄지고 있다. 2016년 9월 음성인식 스피커 ‘누구’(Nugu)가 정식 출시된 이후 기가 지니, 구글 홈, 네이버 클로바, 카카오 미니 및 프렌즈, BTV 누구(BTB x NUGU) 등 다양한 AI 스피커가 등장하면서 2019년까지 800만 대가 보급될 것이라고 추정(나스미디어 발표 인용)되고 있다. 가구 수로 따지면 네 집 중 한 집 꼴로 AI 스피커가 들어서는 셈이다.

SK브로드밴드의 BTV 누구. 음성 비서 에이전트와 방송을 결합해 원하는 정보를 쉽게 찾아준다.

이처럼 AI 스피커의 보급이 눈에 띄게 늘고 있지만, 처음부터 AI 스피커가 제대로 작동했던 것은 아니다. AI 스피커는 무엇보다 이용자가 하는 말을 알아듣는 것이 중요한데, 한국어 기반의 자연어 학습을 막 시작했던 초기 AI 스피커는 속 시원한 대답보다 ‘질문을 이해하지 못했습니다’라는 변명을 훨씬 많이 들어야만 했다. 그나마 음악을 찾아서 재생하거나 날씨처럼 제조사가 잘 가르친 것에 대한 응답만 조금 만족스러운 수준이었을 뿐, 아직 배우지 못한 질문이나 요청에 대해선 돌아오는 답은 늘 답답하기만 했다.

그래도 3년이란 시간이 헛되이 지나지 않았음을 요즘 AI 스피커에서 어렵지 않게 확인할 수 있다. 이용자의 호출을 놓치지 않기 위해 더 많은 마이크를 탑재하는 것과 더불어 이용자가 AI 스피커와 멀리 떨어져 있더라도 그 위치의 소리만 잡아내 되도록 깨뜻한 음성 신호를 수신하는 빔포밍 기술을 도입하는 등 하드웨어도 진화했다.

하지만 가장 놀라운 것은 자연어 인식 능력뿐 아니라 속된 말로 개떡 같이 말해도 찰떡 같이 알아 듣는 등 인공 지능 음성 비서들의 능력치가 높아진 것이다. 특히 AI 스피커를 이용하는 사람들의 음성을 모아 문장을 이해하는 것을 넘어 문장에 담긴 맥락을 알아채는 것을 보면 대견하다 싶다. 이제는 “오늘 1달러 환율에 대해서 말해줘”가 아니라 대충 친구에게 말하듯이 “1달러가 얼마야?”라고 물어도 그 의도를 알아채고 환율을 말한다. “트와이스 최신 곡이 뭐지?”라고 말하면 “팬시 말이군요. 음악을 재생할까요?”라고 되묻는다. 이용자가 했던 말에서 원하는 것이 무엇인지 찾아내는 능력이 점점 나아지자 AI 스피커와 대화의 시간이 늘고 스피커 앞에서 별별 이야기를 편하게 중얼거리고 있다. 마치 광고속 할머니들처럼.

AI 스피커로 빚어진 해프닝과 교훈

AI 스피커를 쓰는 이용자가 늘다 보니 가끔 외국에서 일어난 해프닝을 화제의 뉴스로 접하기도 했다. 아직 우리가 경험하지 못했던 문제여서 더 화제가 되는 점도 무시할 수는 없으나 작은 사건들 덕분에 AI 스피커에서 좀더 깊게 생각해봐야 할 교훈을 얻기도 한다. 흥미로운 점은 외국에서 일어난 AI 스피커 해프닝들 사이에 하나의 공통점이 있다는 점이다. 대부분의 하건이 아마존의 AI 스피커인 알렉사에서 일어났다는 점과 상품의 주문과 연계되어 있었다는 점이다. 이는 아마존 알렉사의 제품 결함이 드러난 것이 아니라 서비스를 접목한 AI 스피커에서 주의를 기울이지 못했던 부분을 환기시켜 주는 사건이었다.

AI 스피커 관련 해프닝 중 하나가 인형의 집과 쿠기 배달 사건이다. 이 사건은 미국 댈러스의 6살짜리 어린 아이가 아마존 에코 닷 스피커를 통해 알렉사와 대화를 하던 중 쿠키와 인형의 집에 대해 질문을 한 뒤 무려 170달러에 이르는 키드크래프트 인형 집과 1.8kg의 쿠키가 배달되면서 알려졌다. 이는 알렉사가 아이와 대화를 주문에 관한 것으로 착각해 항목을 선택한 데다, 아이의 어머니가 잘못된 음성 주문을 막는 핀 설정을 하지 않은 것까지 겹치면서 일어난 해프닝이었다. 하지만 이 사건은 적지 않은 교훈을 남겼는데, 벌써 음성 비서와 대화를 하고 있는 어린 세대를 키우는 부모에게 기술적 안전 장치뿐 아니라 아이에게 음성 비서와 대화에서 주의해야 할 점을 가르치는 중요한 계기가 됐다는 점이다.

6살 어린이가 알렉사와 대화로 170달러 어치 상품을 주문했던 사건은 AI 스피커에 대한 주의를 환기시켰다.(이미지 출처 | 폭스 뉴스 트위터)

또 하나 흥미로운 사건은 모두를 위한 인형의 집을 주문한 것이었다. 캘리포니아의 TV 채널인 CW6 앵커 짐 패튼이 앞서 일어난 인형의 집 해프닝을 설명하던 도중 “작은 꼬마가 ‘알렉사, 돌 하우스를 주문해 줘’라고 말한 게 너무 귀엽다”고 방송에서 말하자 TV 옆에 아마존 에코 스피커를 둔 가정에서 실제 아마존에 돌 하우스를 주문하는 소동이 벌어진 것이다. 이는 알렉사가 앵커의 “알렉사, 돌 하우스를 주문해 줘”라는 말에 반응한 것인데, 주문시 사용하는 4자리 핀 설정과 더불어 타인의 음성에 반응하는 것이 문제로 떠올랐다. 아직 AI 스피커들이 이용자의 목소리만 반응하는 음성 지문(Voiceprint)을 도입하기 이전이었던 상황이었는데, 이후 AI 스피커마다 이용자의 음성을 학습하는 기능의 도입을 서둘렀다.

무엇보다 AI 스피커가 항상 이용자의 목소리를 듣고 있는 상태라는 것과 일부 녹음된 데이터가 서비스 사업자에게 전송되고 있다는 점에 대한 우려가 커졌다. 이용자는 ‘오케이 구글’, ‘알렉사?’ 같은 이름을 불러 AI 비서를 실행한다. 문제는 이용자의 호출에 즉시 AI 음성 비서가 작동하려면 항상 주변 소리를 듣고 있어야 하는 것이 문제가 됐다. 만약 의도적으로 AI 스피커를 해킹한다면 그 소리를 들을 수 있는 것이 문제가 될 수 있는 문제이므로 보안에 대한 기술적인 보완도 더욱 필요한 부분이다.

부분적이나마 음성 녹음 데이터를 서버로 전송하는 것도 개인정보 침해 문제로 이어진다. 일부 AI 스피커는 기계 학습에 필요한 음성 데이터를 AI 스피커를 통해 데이터 센터로 보낸 뒤 이를 학습해 성능을 높이는데, 이 상황에서 매우 민감한 음성 데이터가 전송될 수도 있기 때문이다. 여기에 언어 전문가처럼 음성 데이터의 정확도를 판독할 수 있도록 도와주는 작업자들이 이러한 개인 음성 데이터를 각별하게 다뤄야 함에도 불구하고 이들의 부주의로 음성 데이터가 유출된 사건도 발생했다. 앞으로 이용자의 음성을 데이터 센터로 보내지 않고 AI 스피커에서 직접 처리하게 되면 이 문제는 사그라지겠지만, 그 전까지 이 논란은 꺼지지 않는 불씨가 될 듯하다.

앱을 실행하는 시대의 종말

이 밖에도 여러 해프닝이 있었지만, 이러한 해프닝이 AI 스피커와 같은 장치의 보급을 막는 장애물이 되지는 못한다. 오히려 AI 스피커는 시간이 지날 수록 그 필요성이 커질 수밖에 없다. 그 이유는 AI 스피커의 기능에 기인하지 않는다. 우리 생활을 바꾸는 중요한 촉매를 담고 있어서다.

앞서 해프닝에서 어린 아이가 AI 스피커와 대화를 하면서 물건을 주문한 것이 뉴스였지만, 이 사건을 한 걸음 더 들어가보면 아주 재미있는 장면을 찾을 수 있다. 어린 아이가 AI 스피커와 거리낌 없이 대화를 하는 것 자체도 흥미로운 부분이나 아이가 그 어떤 앱을 실행하지 않고 물건을 주문했다는 점을 주목해야 한다. 만약 우리가 기존의 방법으로 쇼핑했다면 어땠을까? 스마트폰에서 앱을 실행하고 물건을 검색한 뒤 결제를 했을 것이다. 하지만 AI 스피커의 쇼핑은 기존의 방식과 완전히 다른, 일상의 대화로써 모든 것을 처리해 버렸다. 마치 이 일을 잘 처리해 줄 사람에게 지시한 것처럼.

이용자의 말을 들은 AI 스피커는 그 맥락을 알아채고 인터넷을 통해 다양한 작업을 수행한다.(이미지 출처 | 아마존)

이처럼 쇼핑만 아니라 우리가 스마트폰에서 앱을 열어서 찾고 제어했던 모든 것들을 대화로 대체된다. 인터넷에서 정보를 찾고 싶을 때, 초인종을 누른 사람이 궁금할 때, TV 채널을 돌려야 할 때, 가전 장치를 켜고 끌 때 등 수많은 상황에서 AI 스피커를 불러 찾고, 확인하고, 실행하는 세상이 온 것이다. 그러한 일을 가능케 하는 인공 지능 음성 비서와 이어주는 장치가 바로 AI 스피커이고, 가정에서 음성으로 다루는 모든 서비스 및 장치의 애플리케이션 허브로써 중요성을 높여가고 있다. 하지만 AI 스피커의 중요성은 음성으로 다루는 애플리케이션 시대에 우리가 적응할 수 있도록 도와준다는 것이다. 비록 사람의 대화를 통해 인공 지능 음성 비서가 성장한다지만, 머지 않아 익숙해져야 할 인공 지능 비서와 상호 작용을 위한 예행 연습을 할 수 있는 가장 쉬운 도우미를 지금 찾는다면 그것이 바로 AI 스피커인 것이다.

덧붙임 #

이 글은 SK브로드밴드 공식 블로그에 기고한 글로 일부 내용이 다를 수 있습니다.

PHIL CHiTSOL CHOI Written by:

Be First to Comment

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다