출처=한국과학기술정보연구원
출처=한국과학기술정보연구원

한국과학기술정보연구원(원장 김재수, 이하 KISTI)은 데이터 중심의 연구환경을 지원하기 위해 데이터 큐레이션 라이프사이클 관점에서 디지털 전환 전략을 제시한 'KISTI 이슈브리프'를 발간했다.

디지털 기술의 발전으로 인해 과학기술연구 패러다임이 실험, 이론, 컴퓨팅자원 중심의 연구에서 데이터 중심의 연구로 변화하고 있다. 전 세계적으로 학계, 연구계에서는 연구성과를 공유하고 재활용하기 위한 오픈사이언스 운동이 확산되고 있으며, 특히 COVID-19 이후 글로벌 현안을 해결하기 위한 협력과 공유가 증가하고 있다.

데이터 기반의 4세대 R&D 패러다임은 거대과학과 사회 문제를 해결하기 위해 혁신성과 개방성을 고도로 강화하는 방향으로 전환되고 있으며, 글로벌 협력, 타 영역 간 융․복합 등을 통해 사회적 혹은 경제적 이슈를 해결하고자 한다. 다양한 디지털 기술의 발전과 네트워크 기술의 진화로 연구성과 및 자료의 개방, 공유가 용이해지고 있으며, 온라인 채널을 통한 연구자들 간의 협업이 가속화되고 있다.

정보/데이터 환경 변화로 인해 데이터는 국가 경제 및 과학기술 경쟁력의 핵심 자산으로 대두되었으며, 데이터 집약형(data-intensive) 연구 패러다임으로 변화되면서 데이터 관리의 혁신, 데이터의 가치 향상 및 활용성 강화 등이 중요한 이슈가 되고 있다.

데이터 기반의 연구 패러다임 확산 및 데이터 공유/확산 문화에 적합한 디지털 큐레이션 전략이 필요하다. 디지털 큐레이션은 데이터를 적극적으로 관리, 보존하고, 가치를 부여해 현재와 미래에 이용, 재이용이 될 수 있도록 하는 일련의 활동이다.

디지털 큐레이션 활동은 기존에 수작업 또는 규칙 기반의 데이터 관리 자동화 방식으로 수행돼 왔으나, 인공지능 기술을 활용한 데이터 가공 자동화 및 데이터의 기계 활용 촉진을 지원하는 디지털 체제로의 변화가 요구되고 있다.

AI 기술로 폭증하는 데이터 가공 작업을 효율화할 수 있으나 AI 알고리즘 한계 및 편향 오류를 보완하기 위한 의사결정에 사람의 개입도 요구돼 데이터 구축/가공 측면에서는 인간과 인공지능 협업 구조 구성이 필요하다. 그리고 디지털 큐레이션 체제의 디지털 전환 및 성숙 정도를 측정하고 관리하기 위한 관리 모델과 지표가 필요하다.

KISTI는 과학기술분야 디지털 큐레이션 프로세스를 선진화 및 자동화하기 위해 AI 기술을 적용한 데이터 자동 구축 및 휴먼인더루프 기반 크라우스 소싱 방식의 데이터 품질관리 체제를 구축하고 있다. 데이터 관리 프로세스를 효율화하고 수작업 구축 공정의 자동화를 추진하기 위해 큐레이션 프로세스별 디지털 전환 요소를 도출하였고, 이러한 디지털 전환 방향에 기반을 두고 디지털 큐레이션 성숙도 개선을 추진하고 있다.

데이터 구축 자동화를 위해 과학기술분야 언어를 이해할 수 있는 딥러닝 기반의 사전학습모델, 자동추출 모델(메타데이터/참고문헌), 자동 분류모델을 개발했다. 수작업 기반의 데이터 검수 및 품질검증 과정은 휴먼인더루프 기반의 크라우드 소싱 방식으로 전환함으로써 데이터 구축 프로세스 효율화를 추진하고 있다.

과학기술 데이터 큐레이션 업무의 디지털 전환을 통해 데이터 수집/가공/제공 비용을 절감할 수 있으며, 연구현장에서 AI 기술을 활용해 연구의 효율성 제고가 기대된다. 데이터 중심의 과학기술 연구환경 조성을 위해서는 데이터 큐레이션 업무의 디지털 전환이 근간이며, 이와 관계된 연구자와 연구기관의 연구데이터를 공유하고 재활용하기 위한 오픈사이언스 인식 정착이 필요하다.

KISTI 김재수 원장은 “KISTI는 오픈사이언스 생태계 활성화를 위해 오픈액세스플랫폼(AccessON), 연구데이터플랫폼(DataON), 과학기술지식인프라(ScienceON) 등의 인프라 구축 및 운영에 힘쓰고 있다”며 “데이터 중심 연구환경을 지원하기 위해 과학기술 데이터가 지능적으로 수집․가공․활용되는 디지털 체제로 전환하고, 연구자들이 쉽게 데이터를 공유하고 재활용하는 문화를 조성하는 데에도 노력을 기울이겠다”고 언급했다.

이푸름 기자

저작권자 © 학술신문 무단전재 및 재배포 금지

관련기사