AI콘텐츠로 학습하면 진짜 성능 떨어질까? 논문 팩트체크

내용:

AI 콘텐츠로 학습하면 성능이 떨어져서 '모델 붕괴' 가 일어난다는 얘기가 가끔씩 나온다.

해당 트윗은 '인간+AI 데이터를 섞어서 계속 쌓으면 성능 하락은 일어나지 않는다' 라는 주장을 하고 있다.

흥미로운 주장이라 실제로 맞는지 직접 논문을 팩트체크 해봤다.

논문의 제목을 번역하면 다음과 같다:

"모델 붕괴는 필연적인가? 합성 데이터와 실제 데이터를 누적하면 재귀적 붕괴를 피할 수 있다"

논문의 핵심 결론부터 말하자면:

- AI가 만든 데이터로 기존 데이터를 교체(Replace) 하면서 학습하면 성능이 점점 떨어진다.

- 반면 기존 데이터에 AI 생성 데이터를 누적(Accumulate) 해서 학습하면 성능 하락이 억제된다.

이걸 TinyStories 데이터셋과 언어모델(GPT-2, LLaMA-2)로 직접 실험한 결과도 나왔다.

위 그래프를 보면

왼쪽(데이터 교체 방식)은 세대가 진행될수록 성능이 급격히 나빠진다.

오른쪽(데이터 누적 방식)은 성능이 안정되거나 심지어 더 개선된다.

TinyStories 데이터셋으로 테스트한 결과도 마찬가지다.

데이터 누적 방식은 교체 방식과 정반대로 세대가 지날수록 개선의 모습을 보여준다.

심지어 텍스트모델 뿐만 아니라 Diffusion 모델, VAE 모델 등 이미지 등 여러 모델에서도 관측되는 현상이다.

그니까 LLM 뿐만 아니라 어떤 모델이든 인간+AI 데이터 넣는 게 좋다는 말이다.

여기까지 정리하자면, AI 데이터만 계속 먹이면 성능이 떨어지는 건 진짜다.

하지만 원본 데이터를 버리지 않고 AI 데이터를 계속 추가만 하면 성능 하락을 막을 수 있다.

위 트윗은 해당 논문 트윗의 댓글이다.

모델 붕괴에 대해 일어나지 않을 일이라고 비판하는 모습이다.

그 외의 댓글에서도

"결국 AI만 가지고 돌려막기 하면 망한다"

"누적 방식이 현실적이다"

등의 반응이 많다.

결론적으로, AI가 만든 데이터만으로는 위험하지만, 원본 데이터에 추가하는 방식이라면 리스크를 관리할 수 있다는 게 논문의 핵심이다.

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?

광고 보고 계속 읽기

원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

2022.08.01 00:00 기준

실시간 키워드