AI가 응급실 진단에서 의사보다 더 정확했다는 연구가 나왔습니다
의료 현장에서 인공지능이 어디까지 활용될 수 있는지를 보여주는 중요한 연구 결과가 공개됐습니다. TechCrunch 보도에 따르면, 하버드 의대와 베스 이스라엘 디코니스 메디컬센터 연구진은 대형 언어 모델이 여러 의료 상황에서 어떤 성능을 보이는지 분석한 연구를 Science에 발표했습니다. 이 연구에는 실제 응급실 사례가 포함됐고, 그중 일부 실험에서 OpenAI의 o1 모델은 인간 의사보다 더 정확한 진단을 제시한 것으로 나타났습니다.
이번 연구가 주목받는 이유는 단순히 AI가 의학 시험 문제를 잘 풀었다는 수준이 아니기 때문입니다. 연구진은 실제 베스 이스라엘 응급실에 온 환자 76명의 사례를 바탕으로, 두 명의 내과 주치의가 제시한 진단과 OpenAI의 o1 및 4o 모델이 제시한 진단을 비교했습니다. 이후 다른 두 명의 주치의가 어느 진단이 인간에게서 나왔고 어느 진단이 AI에게서 나왔는지 모르는 상태에서 평가했습니다.
즉, 이번 연구는 실제 환자 기록을 기반으로 했고, 평가자에게 진단 주체를 숨긴 방식으로 진행됐다는 점에서 의미가 큽니다. 다만 이 연구가 곧바로 “AI가 응급실 의사를 대체할 수 있다”는 뜻은 아닙니다. 오히려 연구진과 전문가들은 실제 환자 진료 환경에서 더 많은 전향적 임상시험이 필요하다고 강조했습니다.
연구의 핵심 결과: o1 모델은 초기 응급실 분류에서 특히 강했습니다
이번 연구에서 가장 눈에 띄는 결과는 초기 응급실 분류, 즉 환자가 응급실에 도착했을 때 제한된 정보만 가지고 빠르게 판단해야 하는 단계에서 나타났습니다. TechCrunch에 따르면, 연구진은 환자 진단 과정의 여러 접점에서 AI와 인간 의사의 성능을 비교했습니다. 연구 결과 o1 모델은 각 진단 접점에서 두 명의 내과 주치의 및 4o 모델과 비슷하거나 더 나은 성능을 보였습니다. 특히 환자 정보가 가장 적고 빠른 판단이 필요한 초기 응급실 분류 단계에서 차이가 두드러졌습니다.
구체적인 수치도 공개됐습니다. o1 모델은 초기 분류 사례의 67%에서 정확하거나 매우 가까운 진단을 제시했습니다. 반면 한 명의 의사는 55%, 다른 한 명의 의사는 50%의 정확도를 보였습니다.
The Guardian도 같은 연구를 보도하면서, AI의 우위가 정보가 적고 빠른 판단이 필요한 분류 상황에서 특히 두드러졌다고 전했습니다. 또한 더 많은 정보가 제공됐을 때 o1 모델의 진단 정확도는 82%까지 올라갔고, 인간 전문가들의 정확도는 70~79%였지만 이 차이는 통계적으로 유의하지 않았다고 설명했습니다.
이 결과는 의료 AI가 단순히 방대한 의학 지식을 외우는 수준을 넘어, 제한된 정보 속에서 가능한 진단을 추론하는 능력을 갖춰가고 있음을 보여줍니다. 그러나 동시에 응급실 진료는 문서 기록만 보고 진단명을 맞히는 과정이 아니라는 점도 반드시 함께 봐야 합니다.
연구진은 AI에 특별히 가공된 데이터를 주지 않았습니다
이번 연구에서 중요한 점 중 하나는 AI 모델에 특별히 정리된 데이터를 넣지 않았다는 것입니다. TechCrunch에 따르면 하버드 의대 보도자료에서 연구진은 데이터를 전혀 사전 처리하지 않았다고 강조했습니다. AI 모델은 각 진단 시점에서 전자의무기록에 실제로 존재했던 정보와 동일한 정보를 제공받았습니다.
이는 의료 AI 평가에서 매우 중요한 조건입니다. 만약 AI에게만 깨끗하게 정리된 요약본을 주고, 인간 의사에게는 복잡한 원자료를 보게 했다면 비교가 공정하지 않을 수 있습니다. 그러나 이번 연구에서는 AI가 당시 전자의무기록에 있는 정보를 그대로 받았다는 점에서, 실제 의료 기록 환경과 더 가까운 방식으로 평가됐다고 볼 수 있습니다.
물론 이것이 실제 응급실 전체 상황을 완벽히 재현했다는 뜻은 아닙니다. 응급실 의사는 전자의무기록뿐 아니라 환자의 표정, 호흡 상태, 통증 반응, 말투, 보호자의 설명, 현장 분위기, 육안으로 보이는 위급도 등을 함께 판단합니다. 연구진 역시 이번 연구가 텍스트 기반 정보에 대한 모델 성능을 평가한 것이라고 설명했습니다.
따라서 이 연구는 “AI가 실제 환자를 보고 의사보다 더 잘 진료했다”는 의미가 아니라, “AI가 전자의무기록에 담긴 텍스트 정보를 바탕으로 진단을 추론하는 능력에서 일부 인간 의사보다 높은 성과를 보였다”는 의미로 이해하는 것이 정확합니다.
왜 초기 응급실 분류에서 AI가 강점을 보였을까
응급실 초기 분류는 의료 현장에서 매우 어려운 단계입니다. 환자가 막 도착했을 때는 검사 결과가 충분하지 않을 수 있고, 환자의 증상 설명도 제한적일 수 있습니다. 이때 의료진은 가능한 위험 질환을 빠르게 떠올리고, 어떤 환자를 우선적으로 봐야 하는지 판단해야 합니다.
AI가 이 단계에서 강점을 보였다는 것은 큰 의미가 있습니다. 대형 언어 모델은 방대한 의학 지식과 다양한 임상 패턴을 바탕으로 여러 가능성을 동시에 검토할 수 있습니다. 인간 의사는 경험과 직관을 바탕으로 빠르게 판단하지만, 바쁜 응급실 환경에서는 놓치는 가능성이 생길 수 있습니다. 반면 AI는 전자의무기록에 있는 정보를 바탕으로 드문 질환이나 복합적인 병력의 연결성을 제시할 수 있습니다.
The Guardian은 연구에 등장한 한 사례를 소개했습니다. 폐 혈전과 증상 악화가 있었던 환자에서 인간 의사들은 항응고제가 실패하고 있다고 봤지만, AI는 환자의 루푸스 병력이 폐 염증과 관련될 수 있다는 점을 포착했고, 그 판단이 맞았던 사례가 있었다고 보도했습니다.
이런 사례는 AI가 의사를 대체한다기보다, 의사가 놓칠 수 있는 가능성을 다시 확인해주는 보조 도구가 될 수 있음을 보여줍니다. 특히 복잡한 병력, 여러 검사 결과, 비전형적 증상을 함께 고려해야 하는 상황에서 AI는 “두 번째 의견” 역할을 할 수 있습니다.
하지만 AI가 응급실 의사를 대체한다는 뜻은 아닙니다
이번 연구 결과만 보고 “이제 의사보다 AI가 낫다”고 결론 내리는 것은 매우 위험합니다. TechCrunch도 분명히 밝혔듯이, 연구는 AI가 실제 응급실에서 생사를 가르는 결정을 내릴 준비가 됐다고 주장하지 않았습니다. 오히려 연구진은 실제 환자 진료 환경에서 이 기술을 평가하기 위한 전향적 임상시험이 시급하다고 설명했습니다.
또한 연구진은 이번 실험이 텍스트 기반 정보만을 바탕으로 진행됐다는 한계를 지적했습니다. 현재의 파운데이션 모델은 비텍스트 입력, 즉 이미지, 영상, 환자의 외형, 움직임, 고통 표현, 호흡 양상 같은 정보를 추론하는 데에는 더 제한적일 수 있다고 언급했습니다.
응급실 의사의 역할은 최종 진단명을 맞히는 데만 있지 않습니다. 실제 응급실에서는 “이 환자가 지금 죽을 위험이 있는가”, “즉시 개입해야 하는가”, “검사를 먼저 해야 하는가”, “통증 조절이 필요한가”, “보호자와 어떤 대화를 해야 하는가” 같은 판단이 계속 이어집니다. 이는 단순한 텍스트 진단 정확도만으로 평가하기 어렵습니다.
응급의학 전문의 크리스틴 판타가니는 이번 연구가 흥미롭지만, 일부 과장된 제목으로 소비되고 있다고 지적했습니다. 특히 AI와 비교된 의사들이 응급의학 전문의가 아니라 내과 주치의였다는 점을 짚었습니다. 그는 의사의 임상 능력을 비교하려면 해당 전문 분야를 실제로 진료하는 의사와 비교하는 것이 출발점이어야 한다고 설명했습니다.
연구 제목과 해석에서 주의해야 할 부분
TechCrunch 기사 말미에는 중요한 업데이트가 있습니다. 해당 글의 제목과 본문은 연구에서 비교 대상이 된 진단이 응급실 의사들이 아니라 내과 주치의들에게서 나온 것임을 반영하도록 수정됐다고 밝혔습니다. 또한 크리스틴 판타가니의 비판적 논평도 추가됐습니다.
이 점은 블로그 독자들에게 반드시 설명해야 합니다. 처음 제목만 보면 “AI가 응급실 의사보다 더 정확했다”는 인상을 줄 수 있습니다. 그러나 실제 연구에서 비교된 인간 의사는 응급의학 전문의가 아니라 내과 주치의였습니다. 물론 내과 주치의도 고도의 의료 전문성을 가진 의사입니다. 그러나 응급실 초기 분류라는 특수한 상황을 평가하려면 응급의학 전문의와의 직접 비교가 더 적절하다는 비판은 타당합니다.
따라서 이 연구의 정확한 의미는 “AI가 실제 응급실 사례의 텍스트 기록을 바탕으로 진단을 제시했을 때, 두 명의 내과 주치의보다 높은 정확도를 보인 실험이 있었다”는 것입니다. “AI가 모든 응급실 의사보다 낫다”거나 “AI가 응급실 의사를 대체할 수 있다”는 결론은 원문이 말하는 범위를 넘어섭니다.
의료 AI가 실제 현장에 들어오려면 필요한 조건
이번 연구는 의료 AI의 가능성을 보여줬지만, 실제 병원 현장에 적용되려면 여러 조건이 필요합니다.
첫째, 책임 소재가 명확해야 합니다. 베스 이스라엘의 의사이자 연구 공동 주저자인 애덤 로드먼은 AI 진단과 관련해 현재 공식적인 책임 체계가 없다고 경고했습니다. 또한 환자들은 생사를 가르는 결정과 어려운 치료 결정을 내릴 때 여전히 인간이 안내해주기를 원한다고 말했습니다.
둘째, 실제 환자 진료 환경에서 검증되어야 합니다. 연구 데이터에서 좋은 성능을 보였다고 해서 병원 현장의 복잡한 상황에서 동일하게 작동한다고 단정할 수 없습니다. 환자는 기록만으로 존재하지 않습니다. 실제 현장에는 소음, 시간 압박, 불완전한 정보, 환자와 보호자의 감정, 의료진 간 협업, 병원 시스템의 제약이 함께 존재합니다.
셋째, AI의 오류와 편향을 평가해야 합니다. The Guardian은 셰필드대 웨이 싱 박사가 AI가 어떤 환자군에서 더 약했는지, 예를 들어 고령 환자나 영어를 사용하지 않는 환자에게서 더 어려움을 겪었는지에 대한 정보가 부족하다고 지적했다고 전했습니다. 그는 이 연구가 AI가 일상적인 임상 사용에 안전하다는 것을 증명한 것이 아니며, 대중이 무료 AI 도구를 의료 조언의 대체재로 사용해야 한다는 뜻도 아니라고 경고했습니다.
넷째, 의사가 AI 답변에 과도하게 의존하지 않도록 설계해야 합니다. 같은 보도에서 웨이 싱 박사는 일부 결과가 의사들이 독립적으로 생각하기보다 AI 답변에 무의식적으로 기대는 경향을 시사한다고 지적했습니다. AI가 의료 현장에 더 많이 들어올수록 이런 경향은 더 중요해질 수 있습니다.
AI는 ‘의사 대체’보다 ‘두 번째 의견’으로 더 현실적입니다
이번 연구를 가장 현실적으로 해석하면, AI는 의사를 대체하기보다 의사의 판단을 보조하는 도구가 될 가능성이 큽니다. The Guardian은 에든버러대 의료정보학센터 공동소장 이완 해리슨 교수가 이번 연구에 대해, 이러한 시스템이 단순히 의학 시험을 통과하거나 인공적인 테스트 사례를 푸는 수준을 넘어, 임상의에게 유용한 두 번째 의견 도구처럼 보이기 시작했다고 평가했다고 전했습니다. 특히 가능한 진단 범위를 넓게 고려하고 중요한 것을 놓치지 않는 데 도움이 될 수 있다는 설명입니다.
이 관점이 가장 균형 잡힌 해석입니다. AI는 방대한 지식을 빠르게 검색하고, 여러 가능성을 동시에 비교하며, 사람이 놓칠 수 있는 연결고리를 제시할 수 있습니다. 그러나 환자와 대화하고, 불안을 덜어주고, 치료 선택지를 설명하고, 윤리적 판단을 내리고, 갑작스러운 상황 변화에 대응하는 것은 여전히 인간 의료진의 핵심 역할입니다.
애덤 로드먼은 앞으로 AI가 의사를 대체하기보다 의사, 환자, AI 시스템이 함께하는 새로운 진료 모델에 합류할 것이라고 전망했습니다.
의료 AI 시대, 환자들이 알아야 할 점
이번 연구는 환자 입장에서도 중요한 메시지를 줍니다. AI는 앞으로 의료 현장에서 더 자주 사용될 가능성이 높습니다. 진단 보조, 진료 기록 요약, 치료 계획 검토, 약물 상호작용 확인, 환자 교육 자료 작성 등 다양한 영역에서 AI의 역할이 커질 수 있습니다.
하지만 환자가 직접 AI 챗봇에 증상을 입력하고 그 답을 의사의 진료 대신 사용해서는 안 됩니다. 이번 연구는 병원 전자의무기록과 전문적인 평가 체계 안에서 AI 모델을 테스트한 것입니다. 일반 사용자가 무료 AI 도구에 불완전한 증상을 입력하고 얻는 답변과는 전혀 다른 환경입니다.
특히 가슴 통증, 호흡곤란, 의식 저하, 심한 복통, 마비 증상, 심한 출혈, 갑작스러운 시야 이상 같은 증상이 있다면 AI 답변을 기다릴 것이 아니라 즉시 응급실이나 911 같은 응급 의료 서비스를 이용해야 합니다. AI는 참고 도구일 수 있지만, 응급 상황에서 의료진의 판단을 대체할 수 없습니다.
결론: 이번 연구의 핵심은 “AI가 의사를 이겼다”가 아니라 “의료 AI 검증이 다음 단계로 들어섰다”입니다
하버드 의대와 베스 이스라엘 디코니스 메디컬센터 연구진의 이번 연구는 의료 AI 분야에서 중요한 전환점을 보여줍니다. OpenAI의 o1 모델은 실제 응급실 환자 76명의 전자의무기록을 바탕으로 한 진단 실험에서 초기 분류 기준 67%의 정확하거나 매우 가까운 진단을 제시했고, 이는 두 명의 내과 주치의가 기록한 50~55%보다 높은 수치였습니다.
그러나 이 결과를 과장해서는 안 됩니다. 연구는 텍스트 기반 정보에 대한 AI의 진단 추론 능력을 평가한 것이며, 실제 응급실 전체 진료 상황을 대체한 것이 아닙니다. 또한 비교 대상은 응급의학 전문의가 아니라 내과 주치의였고, 연구진 역시 실제 진료 환경에서의 전향적 임상시험이 필요하다고 밝혔습니다.
가장 정확한 결론은 이것입니다. AI는 의료 현장에서 점점 더 강력한 보조 도구가 되고 있습니다. 특히 복잡한 진단 가능성을 검토하고, 놓칠 수 있는 질환을 다시 떠올리게 하며, 의사에게 두 번째 의견을 제공하는 역할에서 큰 잠재력을 보이고 있습니다. 하지만 생명을 다루는 의료 현장에서 AI는 아직 독립적 의사결정자가 아니라, 엄격한 검증과 책임 체계 안에서 사용되어야 할 도구입니다.
이번 연구는 의사가 사라지는 미래를 보여준다기보다, 의사와 AI가 함께 일하는 의료의 다음 단계를 보여주는 신호에 가깝습니다.

