
CONOR MCCLOSKEY
선임 컨설턴트
클래리베이트
인공지능과 체계적인 문헌검토: 잠재적인 이점과 활용사례
양질의 증거는 성공적인 접근 로드맵의 증거입니다. 체계적인 문헌검토(SLR)와 메타데이터 분석은 일반적으로 가장 견고한 증거로 여겨집니다. 엄격한 방법론적 가이드라인을 준수하는 것은 연구자의 고유한 편견을 없애는데 도움이 됩니다. SLR은 다양한 영역에서 방대한 양의 연구 결과를 종합하고 분석하는데 중요합니다. SLR은 증거 기반의 의사결정과 실행을 위한 연구 및 정책입안에 활용됩니다. 이는 일반적으로 Cochrane Collaboration (Cochrane, 2019) 및 Centre for Reviews & Dissemination (Centre for Reviews and Discussion, 2009)에서 발표한 것과 같은 엄격한 방법론적 가이드를 준수한다는 점에서 기존의 문헌검토와는 다릅니다.
SLR을 수행하는 일은 상당히 노동집약적이 일이 될 수 있습니다. 연구자가 방대한 양의 출판 문헌을 식별하고 선별하는 데 수많은 작업이 필요하기 대문입니다. 하지만, 최근 인공지능 및 머신러닝 기술이 붐을 이루면서 SLR 수행방식이 크게 변화될 것으로 보입니다.
이번 글에서는 현재까지 인공지능/머신러닝의 역할과 이를 문헌 검토에서 사용할 때 직면할 수 있는 과제에 대해 살펴보겠습니다.
이점
인공지능/머신러닝을 활용한 SLR의 주요 이점은 특히 인용 심사 단계에서 나타납니다. 이 단계에서의 사람의 시간과 노력을 줄일 수 있기 때문입니다. 최근 한 리뷰에서는 사람에 의한 심사시간이 77% 단축되었다고 보고했습니다. (Van Dijk, 2023) 그러나, 저자들은 연구자가 처음에 인공지능 도구 사용에 익숙해지는 데는 상당한 시간이 필요하다고 밝혔습니다. 의학 분야의 출판물이 기하급수적으로 증가함에 따라 사람 심사자들은 이에 대해 어려움과 피로감을 느끼지만, 인공지능/머신러닝 알고리즘을 이런 대규모 데이터 세트를 처리하는 동안 이런 어려움을 느끼지 않기 때문에 이 분야에서 탁월한 능력을 발휘할 수 있습니다. 결과적으로 인공지능/머신러닝을 사용하면 심사에 소요되는 시간을 단축할 수 있을 뿐 아니라 심사 정확도도 높아질 수 있습니다.
SLR을 위한 인공지능 유형
현재 연구자들이 SLR을 수행하는 데 활용할 수 있는 몇 가지 형태의 인공지능/머신러닝이 존재합니다.
가장 일반적으로 사용되는 것은(Cochrane 가이드라인에서 설명하는 유형) 연구를 분류하는 데 사용되는 머신러닝 학습도구와 연구의 포함 및 제외를 결정하는 데 사용되는 자연어 처리 도구 2가지가 있습니다.
분류기
머신러닝 모델(또는 ‘분류기’)은 이질적인 다양한 임상시험 설계가 포함된 데이터 세트에서 무작위 대조 임상시험(RCT)에 대한 보고서를 식별하는 데 자주 사용됩니다. Cochrane Crowd (Cochrane, n.d.) 에서 선별한 수십만 건의 기록으로 구성된 대규모 데이터 세트를 기반으로 구축된 “RCT 분류기”와 같은 도구를 사용하면 사람이 선별하기 전에 자동적으로 데이터 세트에서 RCT가 아닌 모든 데이터를 제외할 수 있습니다. 이 도구는 수동 심사 전에 데이터 세트에서 적격하지 않은 연구를 제거하여 사람 심사자가 나머지 작은 논문 하위 집합의 적격성을 판단하는 데 집중할 수 있다는 이점이 있습니다.
선별 목적의 인공지능
자연어와 능동형 학습 알고리즘 조합을 사용해 일부 도구는 개별 검토내에서 적격성 기준을 적용하도록 학습시켜 심사 과정을 반 자동화할 수 있습니다. 실제로는 일정 기간의 훈련이 끝나면 도구가 심사할 연구의 순위를 메기고 우선순위를 정합니다. 관련성이 높은 연구가 먼저 사람 심사자에게 제시됩니다. 검토자가 충분히 학습되었다고 확신을 하면, 나머지 배치에 대해 인공지능/머신러닝이 한번 검토하고 사람이 한번 검토하게 되므로 심사 부담을 50%까지 감소시킬 수 있습니다.
추출을 위한 인공지능
지금은 조금 덜 사용되긴 하지만, 인공지능/머신러닝은 체계적 문헌검토의 일부로서 데이터 추출에도 도움을 줄 수 있습니다. 정보 추출 알고리즘은 연구 설계, 표본 크기, 참여자 인구통계, 개입 세부 정보, 결과 및 결과와 같은 특정 유형의 정보를 텍스트에서 인식하고 추출하도록 훈련됩니다. 이런 알고리즘은 SLR의 특정 요구사항과 관련된 데이터를 추출하도록 사용자 지정할 수 있습니다. 이러한 도구는 개발 초기 단계에 있으며 현재로서는 여전히 높은 수준의 인적 검토가 필요하지만, 시간을 절약할 수 있는 잠재력도 상당합니다.
인공지능/머신러닝의 도전 과제
SLR 및 증거 생성 분야에 인공지능/머신러닝을 통합하는 것은 효율성을 높여 프로세스를 간소화할 수 있는 엄청난 잠재력을 가지고 있지만, 이러한 발전에는 도전과제가 없는 것은 아닙니다. SLR에 인공지능/머신러닝을 도입하는 데 있어 중요한 과제 중 하나는 도구 학습에 사용되는 기초 데이터의 품질과 편향성입니다. 도구가 자동으로 스크리닝하는 데 필요한 학습 데이터 세트의 크기와 품질을 미리 결정하기 어려운 경우가 많으므로 툴을 안전하게 사용하기 위해서는 신중한 보정 및 검증이 필요합니다.
또 다른 우려는 알고리즘의 불투명한 특성입니다. 알고리즘 결정의 투명성과 해석 가능성이 부족하면 검토 결과의 재현성과 신뢰성에 대한 우려로 이어질 수 있습니다.
전 세계의 많은 정부와 규제 기관이 인공지능과 머신러닝의 개발과 사용을 관리하기 위해 새로운 규정을 시행하기 위해 움직이고 있습니다. 예를 들어, 유럽연합의 AI 법은 위험 수준에 따라 AI 애플리케이션을 분류하여 고위험 애플리케이션에 더 엄격한 요건을 부과하는 프레임워크를 만드는 것을 목표로 합니다(유럽의회, 2023년). 마찬가지로 미국에서는 편견을 방지하고 AI 시스템의 투명성과 이해성을 보장하기 위해 AI 윤리를 강조하는 프레임워크를 고려하고 있습니다(Intel.gov). 이러한 규정은 개발자에게 명확한 문서를 제공하고, 영향 평가를 수행하며, 강력한 데이터 거버넌스 관행을 구현하도록 요구하는 경우가 많습니다.
보건의료기술평가(HTA) 제출의 일부로 SLR에 인공지능/머신러닝을 사용할 때 가장 중요한 문제는 HTA 기관의 승인 여부입니다. 저희는 일부 대형 HTA 기관(NICE, SMC, HAS, GBA, CADTH, NCPE 및 PBAC 포함)의 지침 문서를 검토했습니다. 검토한 7개 기관 중 6개 기관은 지침을 제공하지 않았고, 국립임상시험연구소(NICE)는 충분히 검증된 경우 기계 분류기 사용을 지지한다고 밝혔지만, NICE 가이드라인은 적격성 판단에 사용되는 도구를 권장하고 있지는 않았습니다.
HTA 기관 | 권장 사항 |
NICE | NICE는 머신러닝 사용을 지원하지만 적격성 판단을 위한 도구 사용을 권장하지 않음 |
SMC | NICE 가이드라인 참조 |
HAS | SLR에서 AI 사용에 대한 권장 사항이 제공되지 않음 |
GBA | SLR에서 AI 사용에 대한 권장 사항이 제공되지 않음 |
CADTH | SLR에서 AI 사용에 대한 권장 사항이 제공되지 않음 |
NCPE | SLR에서 AI 사용에 대한 권장 사항이 제공되지 않음 |
NICE | SLR에서 AI 사용에 대한 권장 사항이 제공되지 않음 |
PBAC | SLR에서 AI 사용에 대한 권장사항은 제공되지 않았으나 SLR 수행을 위한Cochrane가이드라인 참조 |
Cochrane 핸드북에서는 데이터 집합을 선별하는 데 사용되는 AI와 분류기로 사용하는 AI(예: 데이터 집합에서 RCT 식별)에 대해 자세히 설명합니다. 자동적으로 연구를 제외하기 위해 AI를 활용하는 것은 Cochrane 리뷰에서는 권장되지 않습니다.
요약
EU의 HTA절차 변화가 임박해짐에 따라, 회원국들의 보건 기술에 대한 공동 임상 평가(JCA) 수행이 증가할 것으로 보이는 데 이는 보건 기술 개발자 및 이들의 제출을 지원하는 기관에 상당한 어려움을 초래할 수 있습니다. 이에 따른 과제 중 하나는 SLR과 그에 수반되는 메타분석을 수행 기간을 90일로 두고 있다는 점입니다. 이런 제약은 AI/ML의 잠재적 이점을 더욱 매력적으로 만들 것입니다.
인공지능/머신러닝은 향후 연구자들이 SLR을 수행하는 방법의 모든 측면을 적응시키고 형성할 잠재력을 가지고 있습니다. 연구 선택 및 심사를 지원하는 것 이외에도 향후에는 알고리즘이 연구 설계 및 표본 크기와 같은 다양한 지표를 분석해 포함된 연구의 품질을 평가할 수 있는 도구가 개발될 가능성이 높습니다. 향후에는 선택 편향, 성과 편향, 탐지 편향, 소모 편향, 보고 편향과 같은 다양한 편향의 원인을 평가하는 데 도움을 줄 수 있는 도구도 개발될 수 있습니다. 그러나 현재로서는 SLR을 수행하는 데 있어 사람의 전문지식이 필수 불가결한 역할을 한다는 점을 간과해서는 안 됩니다. 숙련된 체계적 문헌 고찰 분석가는 출판된 문헌과 SLR 방법론에 대한 맥락적 이해는 물론, 질병 분야에 대한 지식과 비판적 평가 능력을 갖추고 있어 인공지능/머신 러닝 도구를 보완할 수 있습니다.
AI/ML이 SLR을 수행하는 사람들에게 가져다줄 수 있는 분명한 이점에도 불구하고, AI/ML이 만병통치약은 아니며 검토 결과의 품질, 관련성 및 해석 가능성을 보장하기 위해서는 여전히 인간의 전문성이 필수적이라는 점을 인식하는 것이 중요합니다. AI의 강점과 인간의 판단력 및 전문성을 결합한 하이브리드 접근 방식이 가장 적절한 방법이 될 것입니다. Cochrane의 편집 정책 책임자는 최근 “검토 프로세스의 효율성과 정확성을 높이기 위해 AI를 사용할 수 있는 잠재력에 대한 기대가 큽니다. 하지만, 이에 대해서는 매우 신중하게 접근하고 있기도 합니다.” (Cochrane, 2024)고 말했습니다.
Cochrane과 마찬가지로 클래리베이트의 주요 동기는 항상 리뷰의 견고성과 신뢰성을 보장하는 것이며, 앞으로도 AI/ML 도구의 사용을 면밀히 모니터링하고 완전한 투명성을 갖춘 도구만 SLR에 통합할 것입니다.
본 글은 클래리베이트 Sunita Nair, 증거부문 부사장과 체계적 문헌 고차 부문 Conor McCloskey 수석컨설턴트가 공동으로 작성했습니다.
참고 문헌
Cochrane, 2024. Cochrane announces new policy on AI generated content [Online]. Available: https://futurecochrane.org/newnews/cochrane-announces-new-policy-on-ai-generated-content#:~:text=Like%20them%2C%20we%20are%20open,the%20article’s%20accuracy%20and%20validity [Accessed 17/06/2024].
Cochrane. Cochrane Crowd [Online]. Available: https://crowd.cochrane.org/ [Accessed].
Centre for Reviews and Discussion, 2009. Systematic Reviews. CRDs guidance for undertaking reviews in healthcare.
EUROPEAN PARLIAMENT, 2023: EU AI Act: first regulation on artificial intelligence. https://www.europarl.europa.eu/topics/en/article/20230601STO93804/eu-ai-act-first-regulation-on-artificial-intelligence
Higgins JPT, T. J., Chandler J, Cumpston M, LI T, Page MJ, Welch VA (Editors 2019. Cochrane Handbook for Systematic Reviews of Interventions version 6.0 (updated July 2019).
INTEL.gov: https://www.intelligence.gov/artificial-intelligence-ethics-framework-for-the-intelligence-community
Van Dijk, S. H. B., Brusse-Keizer, M. G. J., Bucsan, C. C., Van Der Palen, J., Doggen, C. J. M. & Lenferink, A. 2023. Artificial intelligence in systematic reviews: promising when appropriately used. BMJ Open, 13, e072254.