AI콘텐츠로 학습하면 진짜 성능 떨어질까? 논문 팩트체크

실시간 키워드

2022.08.01 00:00 기준

AI콘텐츠로 학습하면 진짜 성능 떨어질까? 논문 팩트체크

시보드 2025-09-16 00:28:01 신고

내용:


17579500619904.png


17579500639899.png



AI 콘텐츠로 학습하면 성능이 떨어져서 '모델 붕괴' 가 일어난다는 얘기가 가끔씩 나온다.

해당 트윗은 '인간+AI 데이터를 섞어서 계속 쌓으면 성능 하락은 일어나지 않는다' 라는 주장을 하고 있다.


흥미로운 주장이라 실제로 맞는지 직접 논문을 팩트체크 해봤다.




17579500659972.png



논문의 제목을 번역하면 다음과 같다:

"모델 붕괴는 필연적인가? 합성 데이터와 실제 데이터를 누적하면 재귀적 붕괴를 피할 수 있다"


논문의 핵심 결론부터 말하자면:

- AI가 만든 데이터로 기존 데이터를 교체(Replace) 하면서 학습하면 성능이 점점 떨어진다.

- 반면 기존 데이터에 AI 생성 데이터를 누적(Accumulate) 해서 학습하면 성능 하락이 억제된다.




이걸 TinyStories 데이터셋과 언어모델(GPT-2, LLaMA-2)로 직접 실험한 결과도 나왔다.




17579500680941.png

위 그래프를 보면


왼쪽(데이터 교체 방식)은 세대가 진행될수록 성능이 급격히 나빠진다.

오른쪽(데이터 누적 방식)은 성능이 안정되거나 심지어 더 개선된다.



17579500705537.png


TinyStories 데이터셋으로 테스트한 결과도 마찬가지다.

데이터 누적 방식은 교체 방식과 정반대로 세대가 지날수록 개선의 모습을 보여준다.



1757950072975.png


심지어 텍스트모델 뿐만 아니라 Diffusion 모델, VAE 모델 등 이미지 등 여러 모델에서도 관측되는 현상이다.

그니까 LLM 뿐만 아니라 어떤 모델이든 인간+AI 데이터 넣는 게 좋다는 말이다.




여기까지 정리하자면, AI 데이터만 계속 먹이면 성능이 떨어지는 건 진짜다.

하지만 원본 데이터를 버리지 않고 AI 데이터를 계속 추가만 하면 성능 하락을 막을 수 있다.




17579500755601.png


위 트윗은 해당 논문 트윗의 댓글이다.

모델 붕괴에 대해 일어나지 않을 일이라고 비판하는 모습이다.


그 외의 댓글에서도

"결국 AI만 가지고 돌려막기 하면 망한다"

"누적 방식이 현실적이다"

등의 반응이 많다.



결론적으로, AI가 만든 데이터만으로는 위험하지만, 원본 데이터에 추가하는 방식이라면 리스크를 관리할 수 있다는 게 논문의 핵심이다.



Copyright ⓒ 시보드 무단 전재 및 재배포 금지

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?
광고 보고 계속 읽기
원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

  1. -
  2. -
  3. -
  4. -
  5. -
  6. -
  7. -
  8. -
  9. -
  10. -

0000.00.00 00:00 기준

이 시각 주요뉴스

알림 문구가 한줄로 들어가는 영역입니다

신고하기

작성 아이디가 들어갑니다

내용 내용이 최대 두 줄로 노출됩니다

신고 사유를 선택하세요

이 이야기를
공유하세요

이 콘텐츠를 공유하세요.

콘텐츠 공유하고 수익 받는 방법이 궁금하다면👋>
주소가 복사되었습니다.
유튜브로 이동하여 공유해 주세요.
유튜브 활용 방법 알아보기