摘要:今天,昆侖萬維正式推出具有復雜思考推理能力的系列模型——“天工大模型4.0”o1版(Skyworko1)。
今天,昆侖萬維正式推出具有復雜思考推理能力的系列模型——“天工大模型4.0” o1版(Skywork o1)。
Skywork o1是由昆侖萬維集團發(fā)布的具有慢思考推理能力的系列模型。這是國內(nèi)第一款中文邏輯推理能力的o1模型。不同于現(xiàn)有的復現(xiàn)OpenAI o1模型的工作,Skywork o1不僅在模型輸出上內(nèi)生了思考、計劃、反思等能力,同時,該開源模型在標準評測集上,對比普通模型推理能力大幅上升,真正讓模型擁有了思考和反思帶來的推理能力的提升。團隊復現(xiàn)o1的技術(shù)路線,使得初始推理能力較差的基座模型在基準測試集上成為生態(tài)位SOTA。
此次發(fā)布的Skywork o1包括三款模型,既有回饋開源社區(qū)的開放版本,也有能力更強的專用版本:
?Skywork o1 Open:一款基于Llama 3.1 8B的開源模型,該模型在同生態(tài)位開源模型中評測指標大幅提升達到SOTA水平,并解鎖了許多輕量級模型無法解決的復雜數(shù)學任務。該模型的發(fā)布也將幫助加速國內(nèi)開源社區(qū)復現(xiàn)o1的進程。
?Skywork o1 Lite:該模型具備完整的思考能力,具有更好的中文支持和更快的推理和思考速度。在數(shù)學、中文邏輯和推理類問題上表現(xiàn)突出。
?Skywork o1 Preview:這款模型是本次完整版的推理模型,搭配自研的線上推理算法,對比Skywork o1 Lite有著更多樣和“深度”的思考過程,更完善和更高質(zhì)量的推理。
其中,我們開源的Skywork o1 Open,在各項數(shù)學和代碼指標上均有大幅提高,將Llama-3.1-8B的性能拉到同生態(tài)位SOTA(超越Qwen-2.5-7B instruct)。同時,8B的Skywork o1 Open也解鎖了很多較大量級模型,如GPT 4o,無法完成的數(shù)學推理任務(如24點計算)。這也為推理模型在輕量級設備上部署提供了可能性。
同時,我們也將開源兩個推理任務的Process Reward Model(PRM):Skywork o1 Open-PRM-1.5B 和Skywork o1 Open-PRM-7B,相比此前開源的Skywork-Reward-Model僅對整個模型回答進行打分,Skywork o1 Open-PRM能給模型回答中的每個步驟進行打分。
對比開源社區(qū)現(xiàn)有的PRM,Skywork o1 Open-PRM-1.5B能達到開源社區(qū)8B的模型效果,例如RLHFlow的Llama3.1-8B-PRM-Deepseek-Data,OpenR的Math-psa-7B,Skywork o1 Open-PRM-7B能同時在大部分benchamrk上接近/超過10倍量級的Qwen2.5-Math-RM-72B。Skywork o1 Open-PRM也是第一款適配代碼類任務的開源PRM。下面表格為以Skywork-o1-Open-8B作為基礎模型,使用不同PRM在數(shù)學和代碼評測集上的評估結(jié)果。
除Skywork-o1-Open-PRM外,其他開源PRM均未針對代碼類任務進行專門優(yōu)化,故不進行代碼任務的相關(guān)對比。
詳細技術(shù)報告也將在不久后發(fā)布。目前模型和相關(guān)介紹在Huggingface開源。
強推理以及自我反思的能力是如何練成的?
Skywork o1在邏輯推理任務上性能的大幅提升得益于天工三階段自研的訓練方案:
?推理反思能力訓練:通過自研的多智能體體系構(gòu)造高質(zhì)量的分步思考,反思和驗證數(shù)據(jù)。通過高質(zhì)量的、多樣性的長思考數(shù)據(jù)對基座模型進行繼續(xù)預訓練和監(jiān)督微調(diào)。
?推理能力強化學習:團隊研發(fā)了最新的適配分步推理強化的Skywork o1 Process Reward Model(PRM)。實驗證明Skywork-PRM可有效的捕捉到復雜推理任務中間步驟和思考步驟對最終答案的影響。結(jié)合自研分步推理強化算法進一步加強模型推理和思考能力。
?推理planning:基于天工自研的Q*線上推理算法配合模型在線思考,并尋找最佳推理路徑。這也是全球首次將Q*算法實現(xiàn)和公開。Q*算法落地也大大提升了模型線上推理能力。
亮點功能與實測
Skywork o1模型具有以下能力和亮點功能:
?模型思考和規(guī)劃能力
?模型自我反思能力
?模型自我驗證能力
相較于此前(長文本任務)大模型,無論是常識推理問題、邏輯推理問題、數(shù)學推理問題、倫理決策問題、還是“弱智”(類似腦筋急轉(zhuǎn)彎)邏輯陷阱問題等,Skywork o1都處理的游刃有余。整體來說,Skywork o1 Lite和Skywork o1 Preview線上版本在復雜問題分析、思考反思過程、輸出答案質(zhì)量上均有大幅提升。
進階版的復雜人類思考能力的解鎖也將進一步在垂類領(lǐng)域增強大模型的應用,例如:
?中英文常見邏輯推理和復雜任務,如數(shù)學/代碼類任務,科學研究
?高質(zhì)量內(nèi)容生成,如創(chuàng)意寫作,行業(yè)報告寫作
?深度搜索,解鎖復雜搜索任務的拆解
2024年以來,昆侖萬維天工AI持續(xù)進化,陸續(xù)發(fā)布了“天工2.0”、“天工3.0”、“天工大模型4.0”4o版——Skywork 4o,以及今天正式發(fā)布的“天工大模型4.0” o1版(Skywork o1),不僅是我們貫徹“All in AGI 與 AIGC” 戰(zhàn)略的重要舉措,更是我們構(gòu)建AI技術(shù)棧的重要一步。我們將秉持“實現(xiàn)通用人工智能,讓每個人更好地塑造和表達自我”的使命,從模型層、應用層等全方位、多維度來構(gòu)建公司技術(shù)競爭力和生態(tài)矩陣。
測試地址
“天工大模型4.0” o1版(Skywork o1)開啟測試
3月18日,昆侖萬維正式開源首款工業(yè)界多模態(tài)思維鏈推理模型Skywork R1V,即日起開源模型權(quán)重...
2月18日,昆侖萬維開源中國首個面向AI短劇創(chuàng)作的視頻生成模型SkyReels-V1、中國首個SOT...
2月14日,昆侖萬維正式推出 Matrix-Zero世界模型,成為中國第一家同時推出3D場景生成和可...
從「天工大模型1.0」的研發(fā)到「天工大模型3.0」的發(fā)布,再到今天的「天工大模型4.0」階段,我們堅...
4月11日,社區(qū)生鮮專業(yè)連鎖品牌錢大媽以“萬物生長——腳踏食地,行至千里”為主題,在廣州逸林酒店國際...
4月15日,支付寶聯(lián)合魔搭社區(qū)率先在國內(nèi)推出“支付MCP Server”服務,讓AI智能體一鍵接入支...
2025年二季度以來,全球資本市場在多重因素交織下呈現(xiàn)顯著分化。
在那個供給端野蠻生長的年代,這家南京企業(yè)的“低價高質(zhì)”策略顯得尤為孤獨:優(yōu)質(zhì)板材與更低的定價并未換來...
近期,渤海人壽通過系列應急響應舉措與高效理賠服務,生動詮釋了保險企業(yè)參與社會治理的責任與溫度。
2025年4月14日,身邊云發(fā)表聲明,提示有不法分子冒用其名義,通過偽造資質(zhì)文件、發(fā)布虛假招聘鏈接、...
投資家網(wǎng)(www.51baobao.cn)是國內(nèi)領(lǐng)先的資本與產(chǎn)業(yè)創(chuàng)新綜合服務平臺。為活躍于中國市場的VC/PE、上市公司、創(chuàng)業(yè)企業(yè)、地方政府等提供專業(yè)的第三方信息服務,包括行業(yè)媒體、智庫服務、會議服務及生態(tài)服務。長按右側(cè)二維碼添加"投資哥"可與小編深入交流,并可加入微信群參與官方活動,趕快行動吧。