AI '시간 오류' 한계 극복···의료·법률 분야 신뢰성 높인다

[이데일리 강민구 기자] 국내외 연구진이 최신 정보를 제대로 반영하지 못한다는 인공지능(AI) 기술의 한계를 극복하기 위해 현실 정보를 자동으로 반영하고, ‘시간 오류’까지 잡아내는 평가 기술을 선보였다.

한국과학기술원(KAIST)은 황의종 전기전자공학부 교수 연구팀이 마이크로소프트연구소와 공동연구를 통해 시간 데이터베이스 기술을 활용해 거대언어모델(LLM)의 시간 추론 능력을 자동으로 평가·진단하는 시스템을 개발했다고 14일 밝혔다.

김소연 KAIST 박사과정,(동그라미 왼쪽부터) Microsoft 소속 Jindong Wang 연구원(현재는 윌리엄 앤 메리 대학교 소속), Microsoft 소속 Xing Xie 연구원, KAIST 황의종 교수.(사진=KAIST)

AI가 사용자의 신뢰를 얻으려면 시시각각 변화하는 현실 정보를 정확히 이해하는 능력이 필수적이다. 그러나 기존 평가 방식은 정답 일치 여부만을 확인하거나 복잡한 시간 관계를 충분히 반영하지 못해 실제 환경에서 발생하는 다양한 질문 상황을 제대로 평가하기 어렵다는 한계가 있었다.

이에 연구팀은 지난 40여 년간 검증되어 온 ‘시간 데이터베이스’ 설계 이론을 인공지능 평가에 도입했다. 데이터의 시간적 흐름과 관계 구조를 활용해 사람이 평가용 문제를 일일이 작성하지 않아도 데이터베이스만으로 13가지 유형의 복잡한 시간 기반 문제가 자동으로 생성되도록 했다는 점이 핵심이다.

특히 사람이 문제를 직접 만들던 기존 방식에서 벗어나, 데이터를 기반으로 평가 문제가 자동 생성되는 방식으로 전환했다. 또한, 데이터베이스를 기준으로 문제 생성부터 정답 도출, 검증까지 전 과정을 자동화해 기존처럼 문제를 일일이 수정할 필요 없이 유지보수 부담을 줄일 수 있다.

현실 정보가 변경될 경우에는 해당 내용을 데이터베이스에 업데이트하면 평가 문제와 정답, 검증 기준이 자동으로 반영된다. 다만 최신 정보의 입력 자체는 외부 데이터나 관리자를 통해 이뤄지며, 해당 기술은 이러한 데이터가 갱신된 이후 평가 전반을 자동으로 수행하는 구조다.

연구팀은 단순히 최종 답이 맞는지 틀리는지 여부를 판단하는 기존 방식에서 나아가 답변 과정에서 제시된 날짜나 기간의 논리적 타당성까지 검증하는 지표도 새로 도입했다. 그 결과, 겉보기에는 정답처럼 보이지만 시간적 근거가 잘못된 ‘시간 환각’ 현상을 기존 대비 평균 21.7% 더 정확하게 탐지했다.

이 기술을 적용하면 정보 변경 시 데이터베이스만 갱신하면 되기 때문에 평가 유지 비용이 줄고, 입력 데이터량도 기존 대비 평균 51% 감소하는 것으로 나타났다.

황의종 교수는 “고전적인 데이터베이스 설계 이론이 최신 인공지능의 신뢰성 문제를 해결하는 데 역할을 할 수 있음을 보여준 사례”라며 “방대한 전문 데이터를 평가 자원으로 전환해 향후 의료·법률 등 다양한 분야의 AI 성능 검증에 기반이 될 것으로 기대한다”고 말했다.

연구 결과는 오는 4월 인공지능 분야 최고 권위 학술대회인 ‘ICLR 2026’에서 발표될 예정이다.

실시간 키워드

2022.08.01 00:00 기준

실시간 키워드