报告:DeepSeek美国医师执照考试成绩稍逊ChatGPT

실시간 키워드

2022.08.01 00:00 기준

报告:DeepSeek美国医师执照考试成绩稍逊ChatGPT

아주일보 2025-02-05 10:33:49 신고

一项研究显示,中国生成式人工智能(AI)深度求索(DeepSeek)在美国医师执照考试中的表现逊于美国生成式AI ChatGPT。

上月底公开的DeepSeek声称,在数学等高级智力任务中的实力与ChatGPT相当或略胜一筹,同时开发和运营成本远低于ChatGPT,但此次研究结果却与之相反。

医师执照考试通常会给出特定患者案例,要求考生进行诊断和治疗措施的判断。由于需要逻辑应用复杂的医学知识得出结论,因此经常用作衡量高级AI能力的标准。此次测试使用美国医师执照考试选择题数据库MedQA中的儿科题目。

据AI业界5日消息,意大利万维泰利大学研究团队在受控环境下,让DeepSeek R1和ChatGPT o1模型解答美国医师执照考试的500道选择题,并以论文形式公开结果。

在该测试中,DeepSeek R1在500分满分中获得435分,正确率87%,而ChatGPT o1获得464分(92.8%)。ChatGPT的正确率比DeepSeek高出约5个百分点。

这两款AI都是专注高级推理的产品,采用按照逻辑步骤整理结论的思维链(CoT)方式,相较仅考虑语言相互关联和上下文关系的语言AI,回答的准确性和可靠性更高。

研究团队根据测试结果分析称,DeepSeek和ChatGPT各自擅长的领域有所不同。实际上,两款AI都答错的题目仅有14道,但ChatGPT答对而DeepSeek答错的题目多达51道,ChatGPT答错而DeepSeek答对的题目有22道。

研究团队解释称,作为临床辅助工具,ChatGPT在最小化诊断错误方面表现更佳,特别是在新生儿治疗等紧急情况下,ChatGPT是更好的选择;而DeepSeek的优势同样明显,正确率与ChatGPT差距不大,并且作为免费开源软件,具有经济性和灵活性,在资源匮乏的环境中也能发挥重要作用。

研究团队指出,两款AI差异明显,因此可以考虑采用整合方法结合使用ChatGPT和DeepSeek。在需要最小化错误风险的敏感领域使用ChatGPT,而在难度相对较低且需要持续运营的领域使用DeepSeek,这种思路是可行的。

DeepSeek近期引发市场对ChatGPT和谷歌Gemini等主要AI可能快速遭到替代的担忧,并导致美国和韩国股市大幅波动。受DeepSeek冲击影响,全球最大AI芯片制造企业英伟达上月27日单日股价暴跌17%,市值蒸发约5900亿美元,创下美国上市公司单日市值损失纪录。
 
【图片来源 韩联社】
【图片来源 韩联社】

Copyright ⓒ 아주일보 무단 전재 및 재배포 금지

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?
광고 보고 계속 읽기
원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

  1. -
  2. -
  3. -
  4. -
  5. -
  6. -
  7. -
  8. -
  9. -
  10. -

0000.00.00 00:00 기준

이 시각 주요뉴스

알림 문구가 한줄로 들어가는 영역입니다

신고하기

작성 아이디가 들어갑니다

내용 내용이 최대 두 줄로 노출됩니다

신고 사유를 선택하세요

이 이야기를
공유하세요

이 콘텐츠를 공유하세요.

콘텐츠 공유하고 수익 받는 방법이 궁금하다면👋>
주소가 복사되었습니다.
유튜브로 이동하여 공유해 주세요.
유튜브 활용 방법 알아보기