
처음 구글의 인공지능이 실시간으로 음악을 뚝딱 만들어내는 장면을 목격했을 때 솔직히 온몸에 소름이 돋았습니다. 과거 영상 편집 작업을 하며 영상 분위기에 딱 맞는 배경음악 하나를 찾기 위해 며칠 밤을 새우던 제 수고로운 시간들이 한순간에 부정당하는 기분이 들었기 때문입니다. 오늘은 이 거대한 변화의 중심에 서 있는 제미나이와 리리아 3 기술을 면밀히 살펴보고 피할 수 없는 저작권 문제에 대한 제 솔직한 생각까지 차분하게 정리해 보려 합니다.
제미나이 생태계에 들어온 완벽한 창작자
구글 딥마인드가 야심 차게 선보인 리리아 3 모델이 대화형 인공지능 시스템 안에 기본 탑재되었다는 소식은 관련 업계 전반에 엄청난 충격파를 던졌습니다. 불과 몇 년 전만 해도 작곡을 하려면 복잡한 미디 장비를 만지거나 수많은 오디오 루프를 일일이 잘라 붙여 조합해야만 했습니다. 하지만 이제는 텍스트 프롬프트 몇 줄만 입력하면 상업용으로 당장 써도 무방할 수준의 48kHz 스테레오 고품질 오디오가 단 몇 초 만에 완성되어 튀어나옵니다.
제가 직접 써봤는데 막연히 머릿속에만 맴돌던 추상적인 멜로디와 분위기가 실제 악기 소리와 보컬로 완벽하게 구현되는 과정은 그야말로 경이로웠습니다. 단편적인 악기 소리를 단순히 이어 붙이는 수준을 완전히 넘어섰습니다. 사용자가 원하는 장르와 템포는 물론이고 세세한 악기 구성과 보컬의 창법까지 완벽하게 통제하는 풀 트랙 생성이 가능해진 것입니다. 알려진 바에 따르면 이런 범용 인공지능의 급격한 발전은 비슷한 오디오 생성 서비스를 준비하던 수많은 스타트업의 생존 자체를 위협할 정도로 파괴적입니다.
리리아 3 모델이 가진 멀티모달리티의 힘
이런 기적 같은 결과물을 만들어내는 배경에는 디퓨전 트랜스포머라는 아주 강력하고 혁신적인 뼈대가 자리 잡고 있습니다. 글자와 사진 그리고 소리라는 전혀 다른 형태의 데이터를 하나의 거대한 임베딩 공간에서 유기적으로 연결하여 해석해 내는 첨단 기술입니다. 쉽게 말하면 사용자가 텍스트 대신 특정 분위기의 사진 한 장만 업로드해도 인공지능이 그 안의 색감이나 구도 그리고 감정선을 스스로 분석해서 가장 잘 어울리는 오디오 선율을 정확하게 매핑하여 만들어냅니다.
여기에 노이즈에서 유의미한 소리로 변하는 복잡한 경로를 부드럽게 복원하는 디노이징 기법까지 극도로 고도화되었습니다. 제 경험상 기존의 다른 프로그램들을 만져보았을 때는 보컬이나 여러 악기 소리가 복잡하게 겹칠 때 종종 찢어지는 듯한 기계음이 섞여 나오는 불쾌한 현상이 자주 있었습니다. 반면 이번 모델은 2초 단위로 음악의 전후 맥락을 파악하고 다음 블록을 예측하여 아주 자연스럽고 매끄럽게 소리의 파형을 이어 붙입니다.
특히 실시간으로 오디오를 조작할 수 있는 기능 역시 무서운 무기로 다가옵니다. 음악이 재생되는 도중에 화면의 슬라이더를 움직여 케이팝 느낌을 강하게 더하거나 일렉트로닉 댄스 비트를 섞는 등 즉각적인 디제잉 조작이 가능합니다. 이 부분은 영상 크리에이터나 게임 콘텐츠를 제작하는 분들에게 창작의 한계를 없애주는 엄청난 도구가 될 것이라 확신합니다.
저작권 논란과 예술가의 가치 보존 문제
기술을 만든 구글은 무분별한 복제와 오용을 막기 위해 사람의 귀에는 전혀 들리지 않는 워터마크 기술인 신스아이디를 모든 인공지능 결과물에 강제로 삽입합니다. 이 비가시적 서명은 파일을 압축하거나 재생 속도를 인위적으로 바꾸고 심지어 스피커에서 흘러나오는 소리를 스마트폰 녹음기로 다시 녹음하는 심각한 훼손 과정을 거쳐도 끈질기게 살아남아 출처를 증명해 냅니다. 플랫폼 기업 입장에서는 인공지능 생태계를 리드하며 꽤 책임감 있는 방어막을 선제적으로 구축한 셈입니다.
하지만 제 생각은 조금 다릅니다. 누구나 쉽게 고품질의 곡을 뽑아낼 수 있게 되면서 창작의 물리적 문턱이 극적으로 낮아진 것은 기술의 혁신이 맞지만 진짜 예술가들이 수십 년간 뼈를 깎는 고통으로 쌓아온 고유한 화성학적 스타일마저 기계가 무단으로 모방하는 현실은 매우 우려스럽습니다. 제 경험상 아무리 훌륭하고 정교한 워터마크 방어 기술이 존재하더라도 이를 악의적으로 우회하고 파훼하려는 시도는 언제나 끊임없이 존재해 왔습니다.
단순히 완성된 파일에 꼬리표를 다는 소극적인 방식을 넘어서 남의 소중한 창작물을 무단으로 학습 데이터에 포함하는 행위 자체를 엄격하게 규제해야 합니다. 기술의 폭발적인 발전 속도를 낡은 법과 제도가 제때 따라가지 못하면 결국 가장 큰 피해를 보는 것은 묵묵히 본인의 예술적 철학을 지키며 걸어가는 순수 창작자들입니다. 딥페이크 음성 조작이나 고유한 스타일 도용을 원천적으로 차단할 수 있는 아주 구체적이고 강력한 법적 안전장치가 하루빨리 입법되어야 합니다.
이제 남이 만들어둔 배경음악을 수동적으로 찾아 헤매던 낡은 소비의 시대는 끝났고 제 콘텐츠에 완벽하게 어울리는 소리를 직접 설계하고 조립하는 창조의 시대가 활짝 열렸습니다. 거대한 기술의 파도를 맨몸으로 막을 수 없다면 이를 똑똑한 도구로 활용하는 적응 방법을 최우선으로 익히는 것이 현명합니다. 다만 그 화려한 혁신의 이면에 가려진 원작자들의 피땀 어린 저작권과 예술적 가치를 온전히 지켜주기 위한 성숙한 사회적 합의도 동시에 이루어지기를 간절히 바랍니다.