GPT 환각 방지 프롬프트, 정말 효과가 있을까?

실시간 키워드

2022.08.01 00:00 기준

GPT 환각 방지 프롬프트, 정말 효과가 있을까?

시보드 2025-04-25 18:14:01 신고

내용:

17455724124271.png


일단 이 글을 적기 위해서 11,046원을 지출하였음.

후원 좀 받을 수 없나..?ㅋㅋㅋ





환각(Hallucination)이란?


챗갤 유저들이라면 아주 흔히 접해봤을 용어일 것임.


간단히 말하면,

LLM이 존재하지 않는 거짓 정보를 그럴싸하게 생성하는 현상을 말함.



예를 들어,

17455724136161.png


그러니까 존나 당당하게 틀린 말을 한다는 것이 문제인 거지.



주요 LLM 개발사들은 환각 현상을 줄이기 위해 상당한 심혈을 기울이고 있고,

유저들도 나름대로 대응책을 공유하고 있음.




17455724153262.png1745572417817.png




여러 프롬프트 사이트들 보면,

여러 유저들이 환각을 줄이는 프롬프트를 공유하는 모습을 볼 수 있음.


그러나 이런 프롬프트들이 실효성이 있는지에는 의문이 있음.


이번에는 챗갤에 게시되었던 여러 환각 방지 프롬프트들을 정량적으로 평가해볼꺼임.





SimpleQA


SimpleQA는 LLM의 사실성(factuality)를 측정하기 위한 OpenAI 벤치마크임.

얼마나 환각을 적게 생성하는지, 얼마나 정확하게 응답하는지 평가함.



17455724204801.png

주요 모델들 simpleQA 벤치마크
베이스 모델 중에는 GPT-4.5가 가장 높은 정확도를 보임. 즉 환각이 제일 낮다는 뜻.



 


OpenAI는 simpleQA 벤치마크 데이터셋을 공개하고 있음.


해당 데이터셋을 사용하여 프롬프트 벤치마크를 진행해볼꺼임




실험 세팅


벤치마크: OpenAI SimpleQA

테스트케이스 갯수 : 500개


방식: 테스트 모델이 벤치마크 문제들을 풀어오면, 채점자 모델이 채점하는 방식으로 진행


테스트 모델: ChatGPT-4o-latest (최신 ChatGPT 4o 모델)

파라미터

- Temperature: 0.7
- max_tokens: 150
- 그 외에는 default


채점자 모델: GPT-4.1.mini

파라미터

- Temperature: 0.1
- max_tokens: 10


상술했듯, OpenAI SimpleQA 벤치마크를 사용하였고, 현재 ChatGPT에서 서비스되고 있는 4o의 API를 사용하여 테스트함.

테스트케이스는 원래는 4332개인데 내가 그지라서 좀 줄였음.



Node.js로 벤치마크 프로그램을 만들어서 진행하였음.


17455724226966.png







프롬프트별 테스트 결과


OpenAI 기본 프롬프트

(You are a helpful assistent)

아주 기본적인 시스템 프롬프트만 포함하고 있음.


17455724247625.png


정확도 39.6%

공식 벤치마크 정확도가 38.2%이므로 상당히 준수한 성능을 뽑아내었음.






17455724264658.png



17455724283409.png


정확도 38.6%

오히려 기본 프롬프트에 비해 정확도가 떨어짐.






17455724297952.png



17455724309765.png


정확도 38.3%

마찬가지로, 기본 프롬프트에 비해 낮은 정확도를 보여주었음.





(DLC)

딱 봐도 예능용 프롬프트지만, 그래도 한 번 테스트해봄.



17455724321179.png


17455724331354.png


정확도 0%


그만 알아보자.






결과 비교


프롬프트 종류 정확도 비고
OpenAI 기본 프롬프트 39.6% 공식 벤치마크(38.2%)보다 약간 높음
하나빛 프롬프트 38.6% 효과 미미
ㅇㅇ(221.150) 프롬프트 38.3% 오히려 떨어짐
모노로그 프롬프트(예능용) 0%


결론적으로,


커뮤니티에서 공유된 대부분의 ‘환각 방지 프롬프트’는 오히려 기본 프롬프트보다 정확도가 낮았음.


이는 프롬프트만으로 환각 문제를 해결하는 데 한계가 있다는 점을 다시 한 번 보여줌.


하지만 그렇다고 프롬프트 엔지니어링이 무의미하다는 건 아님.


일부 논문 중에는 프롬프팅을 통해 정확도를 향상시킨 사례도 존재함(CoVE라던가)

즉, 잘 설계된 프롬프트는 분명 효과가 있을 수 있음.


문제는 지금 돌아다니는 대부분의 환각 방지 프롬프트가 그저 조악하다는 거임.

좋은 모델을 사용하고, 비판적으로 검토하는 것이 가장 나을 것임.



Copyright ⓒ 시보드 무단 전재 및 재배포 금지

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?
광고 보고 계속 읽기
원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

  1. -
  2. -
  3. -
  4. -
  5. -
  6. -
  7. -
  8. -
  9. -
  10. -

0000.00.00 00:00 기준

이 시각 주요뉴스

알림 문구가 한줄로 들어가는 영역입니다

신고하기

작성 아이디가 들어갑니다

내용 내용이 최대 두 줄로 노출됩니다

신고 사유를 선택하세요

이 이야기를
공유하세요

이 콘텐츠를 공유하세요.

콘텐츠 공유하고 수익 받는 방법이 궁금하다면👋>
주소가 복사되었습니다.
유튜브로 이동하여 공유해 주세요.
유튜브 활용 방법 알아보기