據(jù)科技日報(bào)消息,9月17日,DeepSeek-AI團(tuán)隊(duì)梁文鋒及其同事在《自然》雜志上發(fā)表了開源人工智能(AI)模型DeepSeek-R1所采用的大規(guī)模推理模型訓(xùn)練方法。
另據(jù)第一財(cái)經(jīng)報(bào)道,與今年1月發(fā)布的DeepSeek-R1的初版論文相比,本次論文披露了更多模型訓(xùn)練的細(xì)節(jié),并正面回應(yīng)了模型發(fā)布之初的蒸餾質(zhì)疑。
DeepSeek-R1也是全球首個(gè)經(jīng)過同行評審的主流大語言模型。Nature評價(jià)道:目前幾乎所有主流的大模型都還沒有經(jīng)過獨(dú)立同行評審,這一空白“終于被DeepSeek打破”。
DeepSeek-R1包含一個(gè)在人類監(jiān)督下的深入訓(xùn)練階段,以優(yōu)化推理過程。梁文鋒團(tuán)隊(duì)報(bào)告稱,該模型使用了強(qiáng)化學(xué)習(xí)而非人類示例來開發(fā)推理步驟,減少了訓(xùn)練成本和復(fù)雜性。
DeepSeek-R1在被展示優(yōu)質(zhì)的問題解決案例后,會(huì)獲得一個(gè)模板來產(chǎn)生推理過程,即這一模型通過解決問題獲得獎(jiǎng)勵(lì),從而強(qiáng)化學(xué)習(xí)效果。團(tuán)隊(duì)總結(jié)說,未來研究可以聚焦優(yōu)化獎(jiǎng)勵(lì)過程,以確保推理和任務(wù)結(jié)果更可靠。
梁文鋒出生于1985年,廣東湛江人,幻方量化、DeepSeek創(chuàng)始人。2024年12月,梁文鋒和團(tuán)隊(duì)開發(fā)的大模型“DeepSeek-V3”發(fā)布。2025年4月,梁文鋒入選美國《時(shí)代》周刊“2025年全球最具影響力100人”榜單。
DeepSeek是2023年成立于杭州的人工智能公司,由幻方量化孵化。創(chuàng)始團(tuán)隊(duì)由梁文鋒領(lǐng)銜,成員來自頂尖高校與國際機(jī)構(gòu)技術(shù)專家。
責(zé)任編輯:張峰培
特別聲明:本網(wǎng)登載內(nèi)容出于更直觀傳遞信息之目的。該內(nèi)容版權(quán)歸原作者所有,并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)。如該內(nèi)容涉及任何第三方合法權(quán)利,請及時(shí)與ts@hxnews.com聯(lián)系或者請點(diǎn)擊右側(cè)投訴按鈕,我們會(huì)及時(shí)反饋并處理完畢。
- 曙光云X DeepSeek 掀起泉州“智變”風(fēng)暴2025-04-26
- 李開復(fù):DeepSeek將中美AI差距縮小至3個(gè)月2025-03-25
- 女生攢百萬被DeepSeek辣評無效存錢:存款利率跑不贏通貨膨脹率2025-03-18
- 最新國內(nèi)新聞 頻道推薦
-
國慶中秋假期首日車票今起發(fā)售,旅客購票乘車2025-09-18
- 進(jìn)入圖片頻道最新圖文
- 進(jìn)入視頻頻道最新視頻
- 一周熱點(diǎn)新聞


已有0人發(fā)表了評論