전체상품목록 바로가기

본문 바로가기

현재 위치
  1. 게시판
  2. 수업의 발견

수업의 발견

For Class 수업레시피

게시판 상세
제목 감정을 표현하는 인공지능 성우
작성자 (ip:211.228.19.29)
  • 평점 0점  
  • 작성일 2022-12-15 16:12:07
  • 추천 추천하기
  • 조회수 13759






감정을 표현하는 인공지능 성우

#AI성우 #감정표현 #AI발전






100만 요리 유튜브 채널 '1분요리 뚝딱이형', 게임 플레이 유튜브 채널 '야옹해 바바'. 모두 타입캐스트에서 만든 인공지능(AI) 성우들의 목소리다. 글로 된 대본을 넣고, 캐릭터를 선택하면 5분 만에 영상이 제작된다. 감정표현이 가능해 진짜 사람의 목소리로 깜빡 속을 정도니, 인기 유튜버를 비롯해 기업에서도 애용한다. 여기에는 오랜시간 쌓아온 음성 분석 기술이 녹아있다.







음성 연구하던 박사, AI 성우로 창업하다

AI 성우 '타입캐스트'를 만든 김태수 네오사피엔스 대표는 연구자 출신이다. KAIST에서 음원 분리와 합성을 연구하던 그는 다양한 소리가 섞여있는 환경에서 특정 음원을 분리하는 알고리즘을 개발한 내용으로 박사학위를 받았다. 김 대표의 연구는 현재 아마존의 AI 비서 '알렉사', 네이버의 AI 음성기록 서비스 '클로바 노트' 등에 흔히 쓰이는 기술의 시초라고 할 수 있다. 박사학위를 받은 뒤 LG전자에 입사한 그는 통화 시 주변 소음이 들리지 않도록 하는 기술을 연구했는데, 이때 세계 최초로 휴대폰에 마이크를 두 개 달아 음원을 분리하는 기술을 개발했다. 여러명이 참여한 녹음을 화자별로 분리해 텍스트로 변환해주는 네이버의 클로바도 이 음원 분리 기술에서 시작된 셈이다. 이후 퀄컴으로 자리를 옮긴 뒤 그는 기계를 부르면 비서가 나와서 응대해주는 서비스를 개발했다. 기계가 특정 자극에 반응해 깨어날 수 있는 알고리즘을 개발한 것이다. 알렉사의 초기모델이었다.














알렉사, 클로바 실현 기술에 초석이 된 연구

현재 일상에서 음성 인식, 합성 기술은 필수다. 6월 시장조사 업체 마켓앤마켓츠가 발표한 '음성 인식 및 발화 시장' 보고서에 따르면 전 세계 음성 인식 시장 규모가 2026년까지 연 평균 21.6% 성장할 것으로 예측됐다. AI 기술 발전, 스마트기기 사용 등으로 적용 범위가 확대되면서, 이를 이용한 서비스가 시장 성장을 이끌 것으로 보인다.


그러나 김 대표가 처음부터 미래를 내다보고 음원 연구를 한 것은 아니다. 보다 현실적인 이유가 있었다. "성적이 안 됐어요. 제가 대학원 진학 당시 통신 쪽이 가장 '핫한' 분야였어요. 음성 분야에서 박사학위를 받으면, 밥 먹고 살기 힘들 것 같다는 의견이 팽배했죠." 실제로 김 대표가 박사학위를 받던 2007년에는 음성 관련 연구를 하는 기업이 거의 없었다. 1980년대 잠시 컴퓨터공학 붐이 있었지만, 반짝 인기가 끝난 다음에 더 이상 비전이 없는 분야로 여겨졌다. LG전자에 입사했던 이유도 음성 관련 연구 부서가 있는 사실상 유일한 기업이었기 때문이다. 2010년대 중반, AI가 이용된 기술이 여러 분야에서 잇따라 실용화됐다. 카메라 얼굴이나 물체 인식 기술 발전, 고흐의 화풍을 따라 그리는 기술 등이 '사용할 수 있는 수준으로' 구현되기 시작했다. "머신러닝 분야에서 수위 퀸텀 점프(대도약)가 일어난 시기였어요. 특히 알파고가 등장한 뒤에는 머신러닝을 기반으로 한 AI분야가 급속도로 발전했죠"





창업 4년만에 가입자 120만명 달성

그러던 2016년 돌연 건강에 적신호가 들어왔다. 그간 걸어온 길을 돌아봤다. 그리고 생각했다. '죽으면 묘비명에 무엇을 남기고 싶을까'. 그때까지 미국에 등록한 특허가 40개, 논문은 20편, 논문 인용 횟수는 2400건. 그간 업적을 돌아본 그는 세상에 더 의미있는 일을 하고자 창업을 결심했다. "세상이 바뀌는 것을 보고 싶었습니다. 혁신적인 기술이 등장하면, 곧 거대한 파도가 일듯 사람들의 일상 생활이 그 기술과 연동해서 다 바뀌었어요. 그 파도를 제가 일으키고 싶었어요."


그렇게 동료 몇 명과 창업을 준비했다. 베테랑 연구자지만 초보 창업자기에 우여곡절도 있었다. 창업은 연구 잘 하고, 기술이 뛰어나다고 성공하는 것이 아니었다. 시장에서 차별성이 있어야 하고, 소비자들이 원하는 '팔리는' 것을 내놔야 했다. "더빙 앱이나, 유명인의 외국어 더빙 영상을 만들어 사람들 반응을 봤죠. 사람들이 원하는 것을 찾아야 했어요." 실제로 카메라로 텍스트를 인식하면 번역해주는 기술, 얼굴이나 사물을 인식해 식별하는 기술 등이 기술적으로 완성형이 돼 시장에 출시됐다. "저는 내 목소리와 똑같도록 내가 말하지 못하는 외국어 음성을 합성하면 어떨까 생각했습니다. 세계적으로 아무도 시도하지 않았던 주제기도 해서 뛰어들었죠."


김 대표는 도널드 트럼프 미국 전 대통령이 한국말을 하는 영상을 만들어 레딧에 올렸다. 반응은 폭발적이었다. 이 기세로 목소리 좋은 AI 성우에 대한 수요도 확인했다. 그렇게 영상 제작자들에게 성우의 목소리를 빌려주는 서비스를 개발하기로 했다. 대본만 넣으면 AI 성우가 알아서 말해주는 타입캐스트가 탄생한 것이다.


첫 이용자 수 300명. 이후 회원 수가 매달 2배가량 늘었다. 현재 총 가입자는 120만 명이다. 매출에도 큰 변화가 있었다. 2018년 첫 매출 2000만 원을 기록한 이후 매년 꾸준히 4~5배씩 성장을 거듭했다. 현재는 2018년 대비 100배 이상 늘었다. 올해 2월에는 이런 기술의 가치를 인정받아 시리즈B 규모의 투자를 받는 데도 성공했다. 256억 규모다. 김 대표는 "앞으로도 매년 꾸준히 3~4배씩 성장시킬 계획"이라며 "이를 위해 다양한 서비스를 구상해 출시할 예정"이라고 밝혔다













굉장히 실망했지만 꾹꾹 참으며 말하는 인공지능?

타입캐스트 기술이 다른 AI 성우와 가진 차별점은 '감정 표현이 가능하다는 점'이다. 똑같은 말도 드라마 대본처럼 '슬프게', '기쁘게' 등의 표현이 가능하다. "단순 감정 표현을 넘어 '굉장히 실망했지만 꾹꾹 참으면서 말하는 것'까지도 가능해요. 감정을 설명하면 이를 반영한 음성을 생성하는 서비스도 곧 세계 최초로 내놓을 예정이죠. 대본을 넣으면 그에 맞는 애드립이 가능한 서비스까지 만들어 보일 계획입니다."


이런 기능은 유튜브를 비롯해 기업이나 기관에서 만드는 교육 영상 프로그램, 인터넷 강의, 키오스크, 고객상담실 등 다양한 분야에서 유용하게 쓰일 수 있다. 다양한 감정 표현, 여러가지 억양과 어조, 사투리는 물론 이제는 애드립도 가능하다니. 사용자가 원하는 모든 말투를 구현하는 기술이 가능한 비결이 궁금했다. 김 대표는 "(대학과 대학원, 기업 연구원으로 20년가량 쌓아온) 경험과 데이터가 기술의 핵심"이라고 말했다.


그는 "타입캐스트는 오랜 시간 열심히 연구한 결과물의 집합체"라며 "남들이 관심없을 때부터 수십년간 꾸준히 해온 연구와 쌓아온 노하우가 빛을 발하게 된 것"이라고 말했다. 지난 한 세월의 결과가 남들이 쉽게 쫓을 수 없는 독보적인 기술력을 만든 셈이다.




[출처] 과학동아_글 조혜인 기자





하루가 다르게 발전하는 AI의 세계

이제는 인간의 감정까지 따라할 정도로 많이 발전된 인공지능을 이용한 성우라니 정말 신기하지 않나요? 음성 인식 기술과 AI 기술의 발전이 앞으로 어떻게 더 우리의 일상에 다가오게 될 지 기대가 됩니다.



말을 하면 음성을 인식하여 내가 한 말을 따라하는 마이펫 댕댕이를 만들어보고 음성인식 기술에 대해 함께 학습해보세요!











게시글 신고하기

신고사유

신고해주신 내용은 쇼핑몰 운영자의 검토 후 내부 운영 정책에 의해 처리가 진행됩니다.

첨부파일 수업의발견.jpg
비밀번호 삭제하려면 비밀번호를 입력하세요.
댓글 수정

비밀번호 :

/ byte

비밀번호 : 확인 취소

댓글 입력
댓글달기 이름 : 비밀번호 : 관리자답변보기

영문 대소문자/숫자/특수문자 중 2가지 이상 조합, 10자~16자

/ byte

왼쪽의 문자를 공백없이 입력하세요.(대소문자구분)

회원에게만 댓글 작성 권한이 있습니다.