인공지능(AI) 기술의 급속한 발전으로 AI 챗봇이 의료 진단을 포함한 다양한 분야에서 인간을 대체할 수 있다는 기대가 높아지고 있습니다. 그러나 최근 발표된 연구 결과는 놀랍습니다. AI 선두주자였던 챗봇들이 치매 초기 증상을 감지하는 데 사용되는 인지기능 테스트에서 경미한 인지 장애 징후를 보이고 있다고 합니다. 이는 AI가 곧 인간 의사를 대체할 것이라는 가정에 의문을 제기하게 된 중요한 발견입니다.
AI 챗봇의 인지능력평가 결과
영국 의학 저널 BMJ에 발표된 이 연구에서는 Open AI의 ChatGPT, Anthropic의 Claude, Google의 Gemini 등 주요 AI 챗봇들을 대상으로 몬트리올 인지 평가(Montreal Cognitive Assessment, MoCA) 테스트를 실시했습니다. MoCA 테스트는 30점 만점에 26점 이상을 정상으로 간주하는데, 놀랍게도 대부분의 AI 챗봇들이 이 기준에 미치지 못했습니다.
- ChatGPT 4o : 26점 [가장 높은 점수]
- ChatGPT 4와 Claude : 25점
- Gemini 1.0 : 16점 [가장 낮은 점수]
이 결과는 AI 챗봇들이 인간의 인지능력을 완전히 모방하지 못하고 있음을 보여줍니다. 특히 시공간 능력과 실행 기능 관련 과제에서 모든 챗봇들이 저조한 성과를 보였습니다.
AI 챗봇들의 '디지털 노화' 현상
더욱 흥미로운 점은 AI 챗봇의 '버전'이 오래될수록 성능이 저하되는 현상이 관찰되었습니다. 이는 마치 인간의 노화로 인한 인지 기능 저하와 유사한 패턴을 보이는 것으로, 연구진은 이에 대해 'AI의 디지털 노화'라고 표현했습니다.
Google 의 Gemini 모델은 출시된지 1년도 채 안되었음에도 구 버전과 신 버전 사이에 MoCA 테스트 점수는 6점이나 차이났습니다. 이는 AI 시스템의 수명과 신뢰성에 대한 중요한 질문을 제기하게 됩니다.
AI 챗봇의 한계점과 시사하는 점
이번 연구결과는 AI 챗봇이 의료 진단, 특히 인지기능평가분야에서 인간 의사를 완전히 대체하기에는 아직 한계가 있음을 보여줍니다. AI 챗봇들은 아래와 같은 영역에서 취약점을 드러냈습니다.
- 시공간 능력 : 시계 그르기 테스트나 숫자와 문자를 순서대로 연결하는 과제에서 모든 AI 챗봇이 실패
- 기억력 : Gemini 모델은 5개 단어 시퀸스를 기억하는 자연 회상 과제를 수행하지 못함
- 공감 능력 : 모든 AI 챗봇이 복잡한 시각적 장면을 정확히 해석하거나 공감을 표현하는데 어려움을 겪음
이러한 결과를 보면 AI가 인지기능평가와 같은 섬세한 영역에서 사용될 때 신중함이 필요함을 강조하게 됩니다. 연구진은 "신경과 의사들이 AI 모델을 새로운 가상 환자로 대하게 될 수도 있다"고 언급하면서 AI의 한계를 인식하고 이를 보완하는 방향으로 의료기술이 발전해야함을 보여주었습니다.
AI 챗봇의 인지능력한계에 대한 발견은 AI가 인간의 능력을 완전히 대체하기보다는 보완하는 도구로 활용되어야 함을 시사하고 있습니다. 의료분야에서는 AI챗봇이 초기 스크리닝이나 기본적인 정보 제공에 활용될 수 있지만, 복잡한 진단과 치료 결정에는 여전히 인간 의사의 전문성과 판단이 필요할 것입니다.
'디지털노마드 경자' 카테고리의 다른 글
레이밴 메타 스마트 안경의 새로운 기능 (5) | 2024.12.19 |
---|---|
MBTI 무료 검사 할 수 있는 곳 (1) | 2024.12.07 |
클라우드웨이즈 워드프레스 하위 도메인 추가 및 설정하기 (0) | 2024.12.05 |
블루스카이Bluesky 의 폭발적 성장과 메타Meta 대응 (2) | 2024.12.02 |
암호 화폐 시장, 3년 만에 3조 달러 돌파 (4) | 2024.11.27 |