报告：DeepSeek美国医师执照考试成绩稍逊ChatGPT

一项研究显示，中国生成式人工智能（AI）深度求索（DeepSeek）在美国医师执照考试中的表现逊于美国生成式AI ChatGPT。

上月底公开的DeepSeek声称，在数学等高级智力任务中的实力与ChatGPT相当或略胜一筹，同时开发和运营成本远低于ChatGPT，但此次研究结果却与之相反。

医师执照考试通常会给出特定患者案例，要求考生进行诊断和治疗措施的判断。由于需要逻辑应用复杂的医学知识得出结论，因此经常用作衡量高级AI能力的标准。此次测试使用美国医师执照考试选择题数据库MedQA中的儿科题目。

据AI业界5日消息，意大利万维泰利大学研究团队在受控环境下，让DeepSeek R1和ChatGPT o1模型解答美国医师执照考试的500道选择题，并以论文形式公开结果。

在该测试中，DeepSeek R1在500分满分中获得435分，正确率87%，而ChatGPT o1获得464分（92.8%）。ChatGPT的正确率比DeepSeek高出约5个百分点。

这两款AI都是专注高级推理的产品，采用按照逻辑步骤整理结论的思维链（CoT）方式，相较仅考虑语言相互关联和上下文关系的语言AI，回答的准确性和可靠性更高。

研究团队根据测试结果分析称，DeepSeek和ChatGPT各自擅长的领域有所不同。实际上，两款AI都答错的题目仅有14道，但ChatGPT答对而DeepSeek答错的题目多达51道，ChatGPT答错而DeepSeek答对的题目有22道。

研究团队解释称，作为临床辅助工具，ChatGPT在最小化诊断错误方面表现更佳，特别是在新生儿治疗等紧急情况下，ChatGPT是更好的选择；而DeepSeek的优势同样明显，正确率与ChatGPT差距不大，并且作为免费开源软件，具有经济性和灵活性，在资源匮乏的环境中也能发挥重要作用。

研究团队指出，两款AI差异明显，因此可以考虑采用整合方法结合使用ChatGPT和DeepSeek。在需要最小化错误风险的敏感领域使用ChatGPT，而在难度相对较低且需要持续运营的领域使用DeepSeek，这种思路是可行的。

DeepSeek近期引发市场对ChatGPT和谷歌Gemini等主要AI可能快速遭到替代的担忧，并导致美国和韩国股市大幅波动。受DeepSeek冲击影响，全球最大AI芯片制造企业英伟达上月27日单日股价暴跌17%，市值蒸发约5900亿美元，创下美国上市公司单日市值损失纪录。

【图片来源韩联社】

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?

광고 보고 계속 읽기

원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

2022.08.01 00:00 기준

실시간 키워드