㈜젠젠에이아이 조호진 대표 - 한차원 높은 AI의 성능 구현과 데이터 부족 문제를 해결할 ‘합성데이터’의 중요성
㈜젠젠에이아이 조호진 대표 - 한차원 높은 AI의 성능 구현과 데이터 부족 문제를 해결할 ‘합성데이터’의 중요성
  • 박소연 기자
  • 승인 2024.04.03 09:50
  • 댓글 0
이 기사를 공유합니다

미래차 대전환 시대의 도래, 혁신적인 모빌리티 기술로 다시 한번 도약하는 대한민국
㈜젠젠에이아이 조호진 대표 ⓒ박소연 기자 / 사진 박성래 기자

AI는 데이터의 학습을 통해 사물이나 기계의 지능을 구현하는 기술이다. 데이터는 AI 모델 구현의 핵심요소이며, AI 모델의 성능과 매우 밀접하게 연관되어 있다. 따라서 양질의 데이터를 확보하는 것이 중요하다. 소량의 데이터와 다양성이 제한된 데이터를 활용하여 학습하면 학습데이터에 편향된 결과를 초래하며, 실제 운영환경에 적용할 때도 AI 모델이 목표하는 성능을 발휘하지 못하게 된다. 그러나 AI 모델 개발에 필요한 양질의 데이터를 대량으로 확보하는 일은 절대 간단하지 않다. AI 학습데이터가 부족한 이러한 상황을 해결하기 위해 등장한 것이 합성데이터(Synthetic Data) 기술이다. 합성데이터란 현실 세계에서 획득한 데이터가 아닌 실제 데이터와 유사한 통계적 속성을 갖는 가상 데이터를 의미한다. 컴퓨터 시뮬레이션이나 AI 알고리즘을 통해 생성할 수 있으며, 라벨이 있는 합성데이터를 생성할 수 있어 데이터 라벨링을 위한 시간과 비용을 절감할 수 있다. 최근에는 AI 모델 개발에 필요한 학습데이터 구축 시 합성데이터를 보완적으로 활용하는 사례도 증가하고 있다. 합성데이터 시장의 도전장을 던진 젠젠에이아이 역시 완벽한 검증을 거쳐 실제와 유사한 합성데이터를 토대로 비전 AI 서비스 제공 및 시스템 구축에 나서고 있다. 데이터 품질 개선, 자율주행 등의 분야를 풍부하게 경험한 조호진 대표는 체적으로 보유한 GPU를 통해 카메라와 같은 센서를 사용해 모빌리티, 방위산업 등 분야를 아우르는 AI 서비스 및 시스템을 제공하며 고객의 만족을 이끌어내고 있다.

 

[사진=젠젠에이아이]

완전한 자율주행을 완성하는 해답, 합성데이터가 유용하게 쓰일 미래에 대한 고민

조호진 대표는 포항공과대학교 컴퓨터공학과 학사와 박사를 졸업하고, 영상복원 및 영상 화질 개선 분야의 연구에 집중했다. 박사 과정 중에는 디자인 소프트웨어 분야의 넘버원 기업인 Adobe사의 Photoshop팀에서 인턴을 하며 Photoshop CS6 개발에 참여한 이력도 있다. 이후 자율주행 기술을 설계하는 스타트업으로 자리를 옮겨 초기 멤버로 8년 가까운 경력을 쌓았다. 자동차에 들어가는 AI 기술의 모델을 설계하는 일에서 자동차의 출시까지 프로젝트의 전체 프로세스를 경험했고, 이 시기에 차량에서 실시간으로 동작하는 고성능 비전의 AI 기능 개발, 독일 자동차 회사의 ADAS 양산, 미국 1차 벤더사의 ADAS 선행기술 개발에 리드 개발자로 참여하는 등 대체 불가한 경력을 가진 인재다.

자율주행 기술의 최전선에서 일하며 그가 몸으로 체득한 기술의 키워드는 단연 데이터다. 완전 자율주행을 가능하게 하는 건 완전한 데이터의 수집이다. 그러나 완전한 데이터 수집에는 시간과 비용을 비롯해 하드웨어, 법적인 제약까지 여러 문제가 산재해있고, 이는 데이터의 부족이나 편향 문제로 이어진다. 어느 순간 조 대표에게 이런 문제를 해결하고 싶다는 열정이 싹텄고, 그는 생성 AI를 떠올렸다. 생성 AI는 당시에는 더욱 생소한 기술이었고, 관심이 적었던 만큼 유의미한 결과도 없는 상황이었지만 언젠가 때가 올 거라 믿었다고. 그로부터 몇 년 후 생성 AI를 아이템으로 한 젠젠에이아이를 창업했다. 이미지와 비디오 데이터의 품질을 개선하는 일에는 자신감이 있었기에 고품질의 이미지와 비디오 합성데이터 생성이라는 구체적인 사업의 방향도 정했다.

AI는 말 그대로 사람의 지능을 모사해 인공적인 지능을 만든 것이다. 학습과 경험을 통해 사람에게 지능이 생기는 것처럼 AI에도 학습을 위한 빅데이터가 필요하다. 하지만 실세계의 복잡성, 다양성, 방대함은 AI 학습에 필요한 자원에 제약이 된다. 자율주행의 경우에는 차량, 보행자, 동물, 표지판 등 다양한 피사체와 지역, 날씨, 계절, 시간 등 다양한 상황에 관한 빅데이터 수집이 필수적인데, 보행자는 개인정보 보호법에 막혀서 또 동물이나 특수 차량 등의 피사체는 정확한 데이터 수집이 어려워 완전 자율주행의 걸림돌이 된다.

이런 한계를 고려해 AI 학습용 데이터를 구축하는 직관적인 방법으로 디지털 트윈을 사용하기도 한다. 가상의 3D 환경을 구축해 3D 시뮬레이션 데이터를 사용하는 것. 그러나 카메라로 센싱되는 실세계와 CG로 만든 게임이 다르듯 이러한 방식 역시 표현력의 차이가 있다. 카메라와 같은 센서의 특징인 색감, 노이즈, 선명도, 텍스쳐 디테일 등이 다르기 때문이다. 3D 시뮬레이션이 높은 자유도와 수학, 물리 공식에 따라 실세계를 모사하긴 하지만, 이는 어디까지나 추정치이다. 실제 데이터를 한 장도 얻기 힘든 분야에서는 도움이 될 수 있으나 자율주행과 같이 높은 정확도를 요구하는 AI 기술개발 시에는 더욱 유의할 필요가 있다. 3D 시뮬레이션 데이터를 실제 데이터와 비교했을 때 AI 정확도가 20~30% 떨어진다는 연구결과도 다수 존재한다.

이러한 상황에서 젠젠에이아이가 제시하는 해결책은 생성 AI. 젠젠에이아이는 차량용 실내외 카메라에서 센싱되는 이미지와 영상 등 기존의 데이터를 생성, 변환, 합성하여 주행데이터 및 운전자 상태에 관한 합성데이터를 제공한다. 단순한 예시로, 봄에 촬영한 이미지 데이터가 있다면, 합성을 통해 이를 겨울 촬영 데이터로 변환한다. 피사체 합성도 가능하다. 특정 동물을 어느 지역, 어느 배경이든 자연스럽게 합성할 수 있다. 물론 완전히 새로운 이미지의 생성도 가능하다. 조호진 대표는 눈으로 덮인 세상의 데이터를 얻기 위해 모두가 집 안에 파묻힌 눈 오는 겨울 전국을 운전하며 데이터를 수집한, 극한의 개발자 시절을 지나온 이다. 직접 발로 뛰며 축적해 온 현장에서의 경험을 바탕으로 개발한 기술인 만큼 누구보다 자신이 있다고.

여러 가지 제약으로 현실의 일부만을 반영한 데이터 수집이 이루어지는 일이 대부분이지만, 젠젠에이아이는 회사가 보유한 자체 그래픽 처리장치(GPU, Graphics Processing Unit) 서버 덕분에 대량생산이 가능하다. 회사가 고객이 요청한 데이터를 신속하고 정확하게 제공할 수 있는 이유다. 조 대표는 창업 초기의 투자금으로 일찍이 그래픽 처리장치를 구매했다. 장기적으로 시간과 비용을 절감한 것은 물론, 일찍이 기술로서 인정받고 분야 내 인지도를 높일 수 있었던 결정이었다. 자체 장비 없이 클라우드 서비스를 사용해 생성용 AI를 만드는 경우, 큰 비용을 지불해야 한다. 네이버, 카카오 등의 계열사도 월 10억 이상의 개발 비용이 든다고 한다. 반면에 자체 장비를 보유한 젠젠에이아이는 24시간 AI 학습이 가능하기 때문에 대량의 데이터를 생산하는 동시에 시간은 단축하고 비용은 절감할 수 있게 된다. 회사만의 독보적인 기술을 확보할 수 있음은 물론이다. 신뢰성 평가에서도 높은 점수를 받고 있다. 자율주행의 경우, 이미 공개된 데이터를 이용해 만든 기존 비전 AI 모델과 젠젠에이아이가 합성해 만든 비전 AI 모델의 비교 테스트에서 성능의 차이가 없었다. 회사는 2024년 상반기를 기준으로 GPUA100 32, RTX(Ray tracing realTime eXtreme) 3090/4090 50개를 자체 보유 중이다.

창업한 직후에 미국에서 자율주행 기술을 개발하는 업체와 만날 기회가 있었어요. 합성데이터가 필요하다며 샘플을 잘 완성해보라고 조언해주었는데요. 1년 만에 다시 만났고, 우리 기술에 놀라며 함께 프로젝트를 진행해보자고 했어요. 중국의 자동차 회사 양산 프로젝트를 진행 중인데 데이터 수집이 너무 어렵다는 거죠. 예를 들어, AI를 만들려면 수십만 장의 표지판 데이터가 필요해요. 낮에 찍힌 것, 밤에 찍힌 것, 새벽에 찍힌 것. 맑은 날과 비 오는 날처럼 날씨 변수도 있고요. 헤드라이트를 켰을 때와 껐을 때 같은 온갖 상황들도 존재해요. 표지판 종류도 수십 종이고, 중국 땅은 얼마나 넓은가요. 몇백 장 겨우 모았는데 AI 학습을 할 수 없어 멈춘 상태로 있다가 SOS를 청한 거예요. 우리의 기술로 자체 기술과 장비를 통해 대량으로 생성한 데이터로 표지판 인식기를 만들었고, 정확도는 99.5%를 기록했죠.”

모빌리티 분야에서는 자율주행 외에도 유럽 GSR(General Safety Regulation), GDPR(General Data Protection Regulation)에 대응하기 위한 다양한 합성데이터 수요도 증가하고 있다. 회사는 미국 자율주행 개발사에 서비스를 제공하며 기술력을 인정받았고, 그 외에도 벤츠코리아의 모빌리티 스타트업 육성 사업인 스타트업 아우토반프로젝트를 통해 벤츠의 협력사인 한화시스템과도 방위산업 분야의 합성데이터 생성 PoC(Proof of Concept) 프로젝트를 성공적으로 수행하여 후속 협업을 앞두고 있다. HL 만도와 이노와이어리스는 전략적투자자로 투자한 이후 자율주행 및 차량사물통신(V2X) 분야의 협업을 논의중에 있다.

 

[사진=젠젠에이아이]
[사진=젠젠에이아이]

AI 학습이 가능한 합성데이터를 제공하는 플랫폼 기업으로

최근 한반도를 포함한 동북아 지역에서 전략적 경쟁과 군비증강, 비군사적 위협의 증가 등으로 불안정한 안보환경이 이어지고 있다. 이런 한편, 저출산으로 인한 군 병력 감축도 현실화되면서 전투력 저하를 방지하고, 미래 국방력을 확보하기 위한 해결책으로 4차 산업혁명 신기술이 접목된 무인 이동체의 전투력 극대화가 떠오르고 있다.

현대전이 지휘, 통제, 통신을 통한 정밀타격과 물리적 파괴가 기본 개념이었다면 미래전은 정보, 감시, 정찰 체계와 정밀타격 무기체계를 통합한 네트워크 중심전(NCW, Network Centric Warfare)으로 변화 중이다. 이러한 복합체계에서는 표적 식별, 무기 할당, 타격, 평가, 임무 재할당의 임무 사이클을 근실시간으로 처리 가능해야 하며, 표적을 멀리서 발견하고 적의 사정거리 밖에서 발사해 명중할 수 있어야 한다. 신속히 타격 결과를 평가하고, 타격 효과를 미달성했을 시에는 빨리 임무를 재개할 수 있어야 한다. 안보환경이 변화함에 따라 세계 군사 강국들은 군과 민간 협력을 통해 인공지능 기술확보 및 도입에 속도를 올리고 있다. 미국의 경우, 기존 무기로는 더이상 군사적 우위를 확보할 수 없다고 판단하고, 경쟁국과 기술격차를 벌리고자 4차 산업혁명 기술을 가장 적극적으로 활용 중이다.

이러한 상황 속, 대한민국 방위산업 분야에서도 젠젠에이아이의 활약이 돋보인다. 산업 분야와 고객사마다 다른 데이터 요구사항을 정확히 충족하는 능력이 특히 빛을 발하고 있다. 고객의 요구사항을 분석하고 도메인 지식을 확보하는 일은 언제나 회사의 첫 번째 업무인데, 이러한 프로세스가 진입장벽이 높고 참고할 데이터도 전무한 방위산업 분야에서 효율을 내고 있는 것이다. 고객사와 미팅을 자주 진행하며 분석 내용을 구체화하는 과정에만 1~2개월이 소요된다. 이 과정을 지나 피사체의 종류, 상황, 시나리오에 따른 샘플을 제작하고, 다시 고객의 요구사항을 준수하면서 피사체의 종류, 위치, 개수를 바꾸거나 기상이나 배경 등의 컨텍스트를 바꿔가며 정확도를 높이고 다양성을 확보해나가고 있다.

자율주행 회사가 블랙박스로 수집된 이런저런 소스들을 잔뜩 던져준다면, 방위산업 분야에서는 아무것도 받을 수 없어요. 보안상의 이유로 데이터 샘플을 군 밖으로 절대 주지 않기 때문이죠. 표적 및 피아식별, 지형지물 인식 등을 위해서는 많은 데이터가 필요하지만, 고객에게 받는 데이터는 0인 어려운 분야입니다. 스무고개하듯 흩어져 있는 자료들을 주워 모으면서 고객이 원하는 답을 찾아가는 과정의 반복이에요.”

물론, 이 또한 자체적으로 구축한 GPU 서버가 있기에 가능한 일이다. 전투기나 군함 등 실제 전쟁이 아니면 구하기 힘든 영상 데이터도 AI 영상 합성과 생성 기술이 있다면 해결할 수 있다. 실제 데이터는 없지만, 생성형 AI를 이용해 위성용 전자광학(EO) 및 적외선(IR) 센서와 고성능 영상레이다(SAR) 데이터를 만들어낸다. 데이터의 생성과 더불어 클라우드를 완전히 배제하고 온프레미스(On-Premises) GPU 서버를 자체적으로 구축한 것은 철저하게 보안을 유지해야 하는 방위산업의 성격에도 매우 적합하다. 회사는 기업 네트워크 VPN 및 보안소프트웨어를 활용하는 등 고객사 및 공개데이터의 저작권 이슈가 발생하지 않도록 철저히 데이터를 구분해 관리 및 통제하고 있다. 최근에는 인하우스에서 직접 데이터를 생성하고자 하는 고객들의 요구에 따라 데이터 생성 플랫폼의 개발도 준비하고 있다고.

플랫폼 개발을 비롯해 회사는 다양한 갈래로 확장을 시도할 계획이다. 이미지, 비디오 합성데이터를 AI 학습에 사용할 수 있도록 레이블을 생성해 제공하기 시작했는데, 미국의 Scale AI와 같은 기업으로 거듭나는 것이 또 하나의 목표다. Scale AIAI 서비스를 개발하는 동시에 AI 모델을 제작하는 기업이나 개인에게 정제된 훈련 데이터를 제공하는 플랫폼 기업이다. 2023년 기업가치가 약 10조 원에 이르는, 미래가 더욱 기대되는 기업이다. 젠젠에이아이 역시 AI 도입을 원하는 다양한 산업에 걸림돌이 되는 로우 데이터(Raw Data) 수집 시의 편향, 부족 문제를 해결함으로써 고객의 비용, 시간, 인력을 절감하는 No.1 데이터 회사로 거듭나기 위한 노력을 해나가려 한다.

 

㈜젠젠에이아이 조호진 대표 ⓒ박소연 기자 / 사진 박성래 기자
㈜젠젠에이아이 조호진 대표 ⓒ박소연 기자 / 사진 박성래 기자

합성데이터라는 신기술이 AI 시장 활성화의 열쇠가 되길

생성 AI 성능을 크게 끌어올리려면 양질의 데이터가 필수다. 데이터를 확보하고 생성하는 과정까지 다양한 요소를 고려할 필요가 있다. 데이터의 신뢰성은 실제 데이터라고 모두 보장되는 것이 아니다. 실제 데이터에도 노이즈와 중복이 다수 존재하기 때문에 클리닝, 데이터큐레이션 과정을 거쳐야 한다. 데이터 수집과 정제의 궁극적인 목표가 AI 개발 성능을 높이기 위한 것인 만큼 합성데이터의 유효성을 증명하는 가장 좋은 방법은 AI 개발에 사용했을 때의 성능을 확인하는 것이다.

젠젠에이아이는 분야 특성에 따라 두 가지 신뢰성 검증 방법을 적용한다. 모빌리티 분야와 같이 활용할 수 있는 많은 실제 데이터가 공개된 경우, 실제 데이터를 사용하여 학습한 AI와 합성데이터를 사용하여 학습한 AI 정확도를 비교한다. 해당 비교에서 젠젠에이아이의 합성데이터를 사용한 AI가 실제 데이터를 사용한 AI와 성능 차이가 없다는 점이 여러 실험을 통해 증명되었다. 방위산업과 같이 학습/평가용 실제 데이터가 없는 분야의 경우, 합성데이터 품질 평가를 위해 도메인 지식을 보유한 전문가의 피드백을 활용한다. 최소한으로 평가용 실제 데이터가 확보되는 경우에는 합성데이터만 이용해 AI를 개발하고, 실제 데이터에서 정확도를 평가한다.

지난 20221월에 설립된 젠젠에이아이는 창업 3개월 만에 네이버와 DSC인베스트먼트로부터 시드 투자를 유치하고, 1년 후인 2023년에는 스마일게이트인베스트먼트, DSC인베스트먼트, KDB 산업은행, 스톤브릿지벤처스, HL만도, 이노와이어리스로부터 프리-시리즈A 투자 유치를 받는 등 사업 초기 엄청난 성과를 거두었다. 창업 2년 내 유치한 누적투자금액만 53억 원에 이른다. 국가지원사업으로 초기창업패키지, TIPS, 초격차 스타트업 1000+, 스케일업TIPS 등에 선정되기도 했다. 예정된 프로젝트의 면면도 대단하다. 작년, 벤츠코리아에서 주관한 스타트업아우토반코리아에서 파트너사인 한화시스템과 PoC를 진행하며 능력을 인정받아 방위산업에까지 진출했고, 후속 협업을 논의 중이다. 이밖에도 LIG 넥스원, 현대로템, KAI 등과의 협업도 진행할 계획이다.

젠젠에이아이는 모빌리티와 방위산업을 포함해 헬스케어 등 다양한 AI 학습 데이터가 요구되는 분야에 적극적으로 진출할 계획이다. 한 예로, 관제 분야에도 방위산업과 유사한 수요가 있다. 일반적으로, 방범용으로 설치된 지능형 CCTV를 모니터링할 때 보통의 경우 사람이 많은 비중을 차지한다. 이때 군중 밀집, 흉기 난동 등 다양한 돌발 상황을 찾을 수 있는 AI가 개발된다면 인력의 부담과 피로를 줄일 수 있을 것이다. 데이터 수집이 쉽지 않은 분야이지만, 국내 ITS(지능형교통체계) 전문기업과 협약을 체결했고 공동으로 사업을 준비하는 등 데이터를 생성할 수 있는 기반을 마련하고 있다. 또 다른 시도는 의료 분야다. 젠젠에이아이는 의료 영상에서 X-RAY, MRI, CT 등과 같은 이미지에서 다양한 질환을 진단할 수 있도록 합성데이터의 성능을 높이는 방법을 연구 중이다. 희귀질환의 데이터가 부족하며, 개인정보 문제로 병원 내 데이터를 활용하는 절차 또한 매우 까다롭지만, 연구가 성공했을 때 사회 전반에 끼칠 긍정적인 영향을 믿으며 나아가고 있다. 세브란스병원과 CT 이미지에서 복강내출혈 검출을 위한 공동연구도 시작했다.

해결해야 할 문제를 해결하고, 고객이 필요로 하는 것을 제공함으로써 우리의 방향성이 틀리지 않았다는 것을 앞으로도 증명해나가고 싶어요. 이제 막 창업한 회사의 가능성을 믿어준 정부 기관, 고객사, 투자사, 언론사 분들에게 감사합니다. 함께 하는 멤버들에게도 감사를 전해요. 이런 분들 덕분에 가능했던 좋은 시작을 좋은 과정으로, 나아가 좋은 성과로 만들어 업계의 발전에 기여하는 기업이 될 수 있도록 최선을 다하겠습니다.”

글로벌 조사기관 가트너에 따르면 오는 2026AI 학습에서 합성데이터 사용 비율이 실제 데이터 사용 규모를 넘어설 전망이다. 현재 세계적으로 합성데이터 시장은 매년 23%씩 성장 중이며 2024년 시장 규모는 261억 달러에 이를 것으로 예상된다. 국내에서도 합성데이터 생성 시장은 2018년 약 1629억 원 규모에서 연평균 9.4% 성장해 2024년에는 약 5752억 원 규모로 확대될 전망이다. 조호진 대표가 대학생 시절과 인턴, 자율주행 기술을 개발하는 회사를 거치면서 오랜 시간 품어 온 데이터를 향한 열정을 유감없이 선보일 최적의 타이밍이 아닐까 싶다. 그가 예상한, 데이터의 가치가 인정받는 미래가 현실이 된 지금. 젠젠에이아이는 처음과 다르지 않은 여전한 열정으로 합성데이터 시장의 미래를, 새로운 세상을 그려나가려 한다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.

  • 07238 서울 영등포구 국회대로 70길 15-1 RA542 (여의도동14-9, 극동 VIP빌딩 5층) 월간인물
  • 대표전화 : 02-2038-4470
  • 팩스 : 070-8260-0200
  • 청소년보호책임자 : 문채영
  • 법인명 : 주식회사 월간인물
  • 대표자 : 박성래
  • 제호 : 월간인물
  • 사업자등록번호 : 227-08-61739
  • 등록번호 : 서울 아 03717
  • 등록일 : 2015년 04월 30일
  • 발행일 : 2015년 04월 14일
  • 발행인 : 박성래
  • 편집인 : 박성래, 남윤실
  • 월간인물 모든 콘텐츠(영상,기사, 사진)는 저작권법의 보호를 받은바, 무단 전재와 복사, 배포 등을 금합니다.  |  Copyright © 2024 월간인물. All rights reserved.
  • 「열린보도원칙」 당 매체는 독자와 취재원 등 뉴스이용자의 권리 보장을 위해 반론이나 정정보도, 추후보도를 요청할 수 있는 창구를 열어두고 있음을 알려드립니다.
    고충처리인 박성래 02-2038-4470 psr@monthlypeople.com
우수콘텐츠 우수콘텐츠 인터넷신문위원회 ND소프트