생성형 인공지능, 데이터 부족 문제 해결을 위한 열쇠

조호진 주식회사 젠젠에이아이 대표이사

2024-04-29     월간인물
조호진

일반적으로 인공지능을 개발하기 위해서는 여러 가지 요소들을 고려해야 하는데 그중에서도 가장 중요한 것은 인공지능 학습에 필요한 빅데이터 확보다. 금융, 의료, 자동차, 방위산업, 보안, 관제, 로보틱스 등 다양한 분야에서 인공지능 기반의 자동화를 목표로 하고 있지만, 데이터의 부족과 편향, 수집 기간 및 비용, 레이블링 등의 이슈는 인공지능 개발에 걸림돌로 작용한다. 이러한 문제를 해결하기 위한 해결책으로서 생성형 인공지능을 활용하는 방안에 대해 소개한다.

불과 2년전까지만 하더라도 생성형 인공지능은 대중들뿐만 아니라 IT 분야 종사자들에게도 다소 생소한 개념이었다. 2022년 11월 OpenAI에서 ChatGPT를 출시하면서 생성형 인공지능이 알려지기 시작하였고, 출시 5일 만에 백만 명이 넘는 사용자를 확보할 정도로 센세이션을 일으켰다. 현재 ChatGPT는 사람과 대화하는 수준의 능력으로 다양한 문체, 길이, 상세함을 반영하여 연속적인 대화를 생성할 수 있고 세계적으로 매우 많은 사람들이 이용하고 있다.

생성형 인공지능이 여러 분야에서 사람과 컴퓨터(기계) 사이에 인터페이스를 혁신적으로 바꾸고 있는 것은 명확해 보인다. 기존에는 구체적이고 명확한 지시를 통해 검색하거나 명령을 실행했던 반면, 현재는 인간의 언어인 자연어를 이용한 인터페이스가 가능하다. 생성형 인공지능을 활용하여 고객 서비스를 대체하거나, 개인 비서처럼 활용하거나, 쉽게 전문 정보를 찾는데 활용하는 것은 이미 높은 완성도로 도입이 되고 있다. 여기서 더 나아가 최근에는 기업, 학교, 정부, 투자회사 관계자들이 생성형 인공지능을 활용하여 무엇을 더 할 수 있을지 고민하는 모습이다. 그럼 생성형 인공지능이 이러한 B2C 서비스 외에 무엇을 더 할 수 있을까?

생성형 인공지능의 능력을 살펴보면, ChatGPT와 같은 대규모 언어 모델(Large Language Model; LLM) 기반의 문자열 생성 외에도 디퓨전(Diffusion) 기반의 이미지, 음성, 비디오를 생성하는 모델들도 많다. 한 때 이슈가 되었던 딥페이크(DeepFake) 기술보다 월등히 개선된 성능으로 실제 사진과 유사한 품질의 이미지를 생성할 수 있고, 다른 사람의 목소리를 흉내 낼 수도 있으며, 최근에는 자연스러운 비디오 생성 기술까지 소개되고 있다. 이러한 기술들이 언어 모델과 결합되면, 주어진 문장(텍스트 프롬프트)에 대응하는 이미지를 생성하거나, 반대로 주어진 이미지에 대해 상세한 설명을 생성하는 모델이 만들어진다.

이처럼 생성형 인공지능은 여러 가지 입력으로부터 그에 대응하는 새로운 문자열, 이미지, 음성, 비디오와 같은 다양한 데이터를 매우 사실적으로 생성해 내고 있으며, 그 품질은 직관적으로 보기에도 현실에서 실제 수집하는 데이터와 차이가 없어서 인공지능 학습을 위한 데이터로 사용될 수 있다. 합성데이터는 생성형 인공지능 외에도 목업 모델, 디지털 트윈 또는 3D 시뮬레이션으로도 제작할 수 있고 방법에 따라 장단점이 있지만, 생성형 인공지능을 이용하는 경우 훨씬 더 사실적인 데이터를 제작할 수 있다는 장점이 있다. 인공지능 학습에 필요한 빅데이터는 양과 품질이 모두 중요하고, 데이터를 구성하는 다양성과 종류별 균형 또한 중요한데, 생성형 인공지능은 생성, 변환, 합성 등 여러 요소기술을 조합하여 그러한 문제들을 효율적으로 해결할 수 있다.

한 편으로는 합성데이터를 사용한 인공지능이 정말 잘 동작할까 하는 의문을 갖는 사람들도 있다. 합성데이터를 활용한 성공적인 인공지능 제작 사례는 바둑 인공지능에서 힌트를 얻을 수 있다. 초기 AlphaGo가 나왔을 당시 이세돌 기사와의 대국으로 전 세계 많은 사람들이 놀랐는데, 이 AlphaGo는 기존의 실제 기보들로 학습이 되었다. 이후에는 훨씬 더 높은 수준의 AlphaZero와 같은 모델이 출시되었는데, 이 모델들은 바둑의 정해진 규칙만으로 바둑 인공지능들끼리 대국을 하면서 기존에는 없던 가상 기보들을 만들어내었고, 이러한 가상 기보를 바탕으로 더 높은 정확도를 갖도록 학습되었던 것을 볼 수 있다. 여기에서 알 수 있듯이, 인공지능이 생성한 가상의 합성데이터를 활용하면 새로운 고성능 인공지능을 학습하는데 유용하게 사용할 수 있다. 바둑 이외의 분야에서도 인공지능 개발에서 합성데이터가 실제 데이터와 비교하여 유사하거나 더 높은 성능을 낸다는 연구들도 존재한다.

산업 측면에서는 자동차 분야의 자율주행 기술 개발이나 방위산업에서의 정확한 표적인식 및 피아식별 기술 개발을 위한 방대한 데이터 수요가 있다. 생성형 인공지능을 이용하면, 실세계에서 센서로 취득되는 품질의 합성데이터를 훨씬 더 빠르게 수집할 수 있고, 수집 기간도 짧아지며, 종류는 더 다양하게, 또 저렴한 비용으로 얻을 수 있다. 실제 데이터가 아니라고 해서 거부감을 갖기 보다는, 실제 데이터의 일부를 합성데이터로 조금씩 대체해가면서 빠르게 도입하고 가격과 품질, 성능 검증을 통해 합성데이터로의 전환율을 높여간다면 전반적인 인공지능 도입 비용을 절감하고 기업 입장에서는 생산성을 향상시킬 수 있을 것이다 생각된다.