데이터 속 숨은 의미 찾으며 더 많은 사람의 생명 구하고, 삶을 바꾸어놓는 데이터사이언티스트

가톨릭대학교 데이터사이언스학과 김강민 교수

메타버스와 인공지능, 빅데이터 등 첨단 산업과 기술이 더이상 낯설지 않다. 인류의 삶 속에 녹아든 첨단 기술들은 빠르게 인간의 삶을 변화시키고 있다. 가톨릭대학교 데이터사이언스학과 김강민 교수는 쏟아지는 데이터를 보다 유의미하게 활용할 수 있는 방법을 고민하고 있었다. 병원의 EMR(전자의무기록)을 활용한 급성 질환 예측 시스템부터 장애인들을 위한 키오스크 개발에 이르기까지, 자연어처리 전문가로서 정보에 의미를 더하며 새로운 기술을 선보이는 모습이다.

EMR 기반 급성 질환 예측 시스템 구축으로 EMR 데이터 가치 극대화

가톨릭대학교 데이터사이언스학과 김강민 교수가 과학기술정보통신부와 한국연구재단이 선정·지원하는 ‘2022년 상반기 개인연구지원 사업’ 우수신진연구 지원사업에 선정되었다. 향후 3년 간 ‘자기지도학습을 활용한 전자의무기록 기반 급성 질환 예측 시스템’을 주제로 한 연구를 이어간다. 이는 지난해 2월 박사과정을 마친 후, 임용 6개월 만에 이룬 성과이기에 더욱 뜻깊다.
“최근 건강에 관한 관심이 증대되고 있습니다. 의료 접근성 향상과 급격한 인구 고령화에 따른 의료서비스 이용 또한 증가하고 있죠. 그러나 여전히 의료현장에서 예측하지 못한 증상 악화로 인해 결국 환자가 사망에 이르러 의료분쟁으로 이어지는 사례도 늘어나고 있습니다. 특히 심장마비 및 심실세동, 쇼크, 패혈증, 호흡부전 등 갑작스러운 발병이나 증상악화로 인한 사망이 많습니다.”
급격한 건강악화로 인한 갑작스러운 죽음을 방지하기 위해 김 교수가 주목한 것은 EMR이다. EMR은 병원에서 환자의 인적사항, 병력, 진찰결과, 투약기록, 치료결과, 수술기록, 입퇴원기록 등을 저장한 디지털 진료차트다. 환자에 관한 모든 상태 및 처치가 시각과 함께 기록되었기에 환자의 건강상태 예측의 유용한 지표가 될 수 있다. 김 교수는 우리나라의 EMR 보급률은 세계 1위 수준인 92%에 달한다며, EMR을 효과적으로 활용한다면 더 많은 환자들을 살릴 수 있다고 말했다.
“EMR은 의료데이터의 보고(寶庫)이지만 질병의 유형, 처방하는 약의 종류, 수술의 종류 등이 방대한 데다, 자연어(free text) 및 약어 형태 등 표준화되어 있지 않은 비정형데이터로 저장되어 있는 부분이 많습니다. 예측모델 구축에 중요한 지표로 활용할 수 있는 변수 선별이 까다로운 이유죠. 이에 저와 같은 자연어처리 전문가가 EMR 데이터 분석에 도움이 될 수 있으리라 생각했습니다.”
김 교수는 인공지능 기반 EMR 데이터 분석 방법론을 구축함에 있어 검사 수치 등의 정형 데이터와 진료기록과 의료영상 등 텍스트·이미지 형태의 비정형데이터를 종합적으로 처리하는 데 초점을 맞췄다. 실제 의료진은 EMR에 기재된 각종 검사 수치와 진료기록, 의료 및 병리 영상 등의 데이터를 종합적으로 인식하고 판단해야 하는 까닭이다. 이를 위해 자기지도학습기술이 활용되었다. 자기지도학습은 현재 주류를 이루고 있는 지도학습과 달리 인간이 정해주는 정답 없이 스스로 학습하는 기술을 말한다. 김 교수는 EMR 데이터를 바탕으로 인공지능에게 자기지도학습을 시켜 급성 질환 발병 여부 예측 성능을 극대화시키고자 한다고 설명했다.
“EMR을 활용하여 생명에 치명적인 영향을 줄 수 있는 급성질환을 조기에 예측함으로써 더 소중한 생명을 단 한 분이라도 더 많이 구하고자 합니다. 현재 전 세계 어느 곳에서도 EMR 데이터를 충분히 활용하지 못하고 있습니다. 이번 연구를 통해 EMR 데이터 활용을 극대화시키기 위한 초석을 다지고 싶습니다.”

대규모 텍스트 분류와 초소형 인공지능 연구해온 자연어처리 전문가

현재 가톨릭대학교 자연어처리(NLP) 연구실을 이끌고 있는 김강민 교수는 박사과정에서 인공지능의 한 분야인 자연어처리를 연구해왔다. 자연어처리는 인공지능이 인간의 언어를 이해하고, 구사할 수 있는 능력 구현을 목표로 한다. 김 교수는 박사과정 당시 대규모 텍스트 분류(Large-scale Text Classification)와 초소형 인공지능(On-device AI)에 관한 연구로 세계적인 성과를 내면서 WWW, EMNLP, ACL 등 인공지능 최우수·우수 국제학술대회에 총 17편(주저자 5편)의 논문을 출판했다. 이와 관련해 고려대학교 정보대학과 한국정보과학회에서 최우수 논문상을, 국내 인공지능 분야를 주도하는 네이버로부터 펠로우십을 수상하는 등 연구 성과를 인정받는 모습이다. 또한 인공지능 분야 최고 권위의 최우수학술대회인 AAAI, ACL, NAACL에서 프로그램 위원회 위원을 역임했다.
대규모 텍스트 분류는 다양한 문서를 수천, 수만 가지 주제로 분류하는 태스크이다. 정치, 스포츠, 과학 등 추상적인 수준의 분류를 뛰어넘어 스포츠라면 야구/메이저리그/팀/LA다저스와 같이 상세한 토픽으로 분류해낸다. 이러한 원천기술은 추천시스템이나 챗봇 구현 시 사용자 관심사를 세부적으로 파악하는데 활용할 수 있다. 초소형 인공지능은 최근 이슈가 되고 있는 인공지능으로 인한 사생활 침해 문제를 해결할 수 있는 기술로 주목받는다. 현재 주류를 이루고 있는 인공지능 모델은 너무 커서 고성능 서버에 상주할 수밖에 없다. 때문에 사용자들이 지능형 서비스를 이용하기 위해서는 자신의 개인 데이터를 서버로 전송해야 하며, 이는 사생활 침해 문제로 이어질 수 있다. 김 교수는 초소형 인공지능은 스마트 디바이스 내에서 단독으로 동작이 가능하기에 사용자의 프라이버시를 보호하면서도 지능형 서비스의 효용성을 누릴 수 있다고 말했다. 실제로 다수의 산학 프로젝트를 통해 사용자들이 체감할 수 있는 기술을 선보이기도 했다.

"가톨릭대학교에 임용된 후 의료 인공지능에 관한 공동연구나 개발 요청이 많았습니다. 데이터사이언티스트로서 의료 분야에 기여할 부분이 분명 있으리란 판단에 EMR 기반의 질환예측에 관한 공부를 시작했죠. 자연어처리를 통해 축약어와 동의어를 파악하고, 이를 분석해 질환 예측까지 할 수 있는 자연어처리 인공지능기술 개발로 연구 방향을 선회했습니다."

현재까지 피검사 등의 정형화된 데이터를 기반으로 질환을 예측하는 연구는 이루어졌으나 비정형 데이터까지 종합적으로 파악해 특성 급성 질환을 높은 확률로 예측하기 위한 연구는 존재하지 않았다. 김 교수는 대규모 텍스트 분류와 초소형 인공지능 구현을 위해 기존에 연구하던 딥러닝 기술이 EMR 기반의 질환예측모델 개발의 기반이 될 것으로 판단했다고 전했다. 이러한 연구를 통해 급성질환을 조기에 예측해 사망률을 낮추고, 생명을 구한다면 그 자체로 큰 보람이 있으리라는 기대와 함께였다.
“의료 인공지능 개발에 있어 동료 교수님들께 많은 도움을 받고 있습니다. 의학지식이 엄청나게 많으시더라고요. 의과대학과 성모병원의 환자 데이터에 접근할 수 있다는 점 또한 가톨릭대학교에 속해있기에 누릴 수 있는 장점이죠.”

‘말하는 대로 이루어진다’ 목표 향해 정진해온 연구자
김강민 교수는 현재 가톨릭대학교 AI캠퍼스연구센터장을 역임하며 학생들을 위한 ‘AI 선배’를 개발하고 있다. 학생들에게 커리큘럼을 추천하거나 포트폴리오 첨삭, 취업 상담 등을 해줄 수 있는 AI를 개발 중이라는 설명이다. 3개년에 걸쳐 연구를 수행하며, 1차연도인 올해는 자퇴 의향이 엿보이는 학생을 조기에 감지해 자퇴를 방지하는 기술을 개발한다. AI 선배를 통해 학교생활에서 겪는 어려움을 선제적으로 확인하고, 관련 내용을 지도교수에게 알려 상담 등을 통해 문제해결에 도움을 준다. 또한 임용 전 연구하던 뉴스기사의 정치적인 편향을 감지하는 기술을 이어갈 계획이다. 아직까지 정치 성향이 확립되지 않은 독자들이 뉴스기사의 정치 편향을 참고해 기사 내용을 판단했으면 하는 바람에서다. 김 교수는 연내에 해당 기술 연구를 마무리한다는 계획을 전했다.
산학 프로젝트도 활발히 진행 중이다. 인투씨엔에스와의 반려동물 심장질환 예측모델 개발 외에도 키오스크 기업인 오더퀸과의 공동연구를 통해 장애인을 위한 키오스크 개발에 나섰다. 김 교수는 휠체어를 타고 있거나 터치가 불편한 분들을 위해 음성 챗봇을 활용해 매장에서 음성으로 주문할 수 있는 키오스크를 만들고 있다고 설명했다.
“‘말하는 대로 이루어진다’라는 말을 믿습니다. 목표가 있다면 주변 사람들에게 열심히 알리며 저 자신에게 동기부여를 하죠. 제가 말한 바를 이루기 위해서라도 열심히 노력하다보면 제 능력치를 120% 끌어내게 되는 것 같습니다.”
이러한 신념은 제자들에게도 전해지고 있었다. 목표를 갖는 것 자체가 중요하다는 김 교수는 이루고픈 목표가 있다면 두려워하지 말고 주변 사람들과 공유하며 목표를 이루기 위해 최선을 다하는 삶을 살 것을 조언한다. 데이터사이언스학과라는 신설학과를 선택한 데다 수학과 통계, 프로그래밍 등 다양한 역량을 요구하는 인공지능 분야의 특성상 어려움을 호소하는 제자들이 많은 까닭이다. 김 교수는 인공지능 데이터사이언스는 너무나도 유망한 분야라며, 확신을 갖고 충분히 공부한다면 분명 큰 의미와 경제적 보상을 누릴 수 있는 직업을 얻게 될 것이라 말했다. 자신 또한 유능한 데이터사이언티스트들을 양성하겠다는 다짐과 함께였다.

제자들을 사랑하는 교수로서 데이터사이언티스트 육성할 것
경제학 박사로서 국민은행 연구소장과 중앙대학교 외부 겸임교수로 활동했던 부친의 모습은 김강민 교수에게 큰 영향을 미쳤다. 10년간 중앙대학교에서 화폐금융론 과목을 강의하던 아버지는 어린 김 교수에게 제자들에 대한 이야기를 자주 들려주곤 했다. 제자들이 성장해 나가는 모습을 자신의 일처럼 기뻐하던 아버지의 모습은 그가 교수로서 제자들을 마주하는 동안 생생히 재현되고 있었다. 학생들은 향한 진심은 고려대학교 석탑강의상 및 우수강좌 선정으로 인정받기도 했다.
“제가 대학원에 입학한 첫날 아버지가 돌아가셨어요. 장례식장에서 상주를 하고 있는데, 처음 뵙는 분이 너무 구슬프게 우시는 거예요. 방명록을 보고 아버지의 제자라는 걸 알았죠. 아버지의 제자 사랑이 양방향이었음을 깨닫고 저 또한 제자들을 사랑하는 교수가 되어야겠다고 결심했습니다.”
김 교수는 아버지가 들려주던 직업 선택의 기준 세 가지를 제시했다. 이는 의미와 재미, 머니(Money)가 있는 일로 이 모두를 충족하는 직업이 사람에게 좋은 직업이라는 설명이다. 그는 인공지능이야말로 이 세 가지를 두루 갖춘 분야라 단언했다. 사람을 위한 인공지능을 개발하는 만큼 자신이 만든 기술이 의료와 자율주행, 로보틱스 등 새로운 분야에 접목되는 것을 보며 재미와 의미를 느낄 수 있는 데다, 자신의 분야에서 성과를 쌓아간다면 분명 합당한 대우를 받을 수 있는 직업인만큼 더 많은 학생들이 포기하지 않고 자신의 목표를 이루었으면 한다는 바람과 응원을 전하는 그다. 넘쳐나는 데이터 속 유의미한 지표를 만들고, 이를 통해 사람들의 삶을 바꾸어놓을 김 교수의 연구들과 그의 제자들이 만들어갈 빅데이터 시대를 기대해본다.

박금현 기자 다른기사 보기