摘要:MedBench致力于打造一個(gè)科學(xué)、公平且嚴(yán)謹(jǐn)?shù)闹形尼t(yī)療大模型評測體系及開放平臺(tái),其基于醫(yī)學(xué)權(quán)威標(biāo)準(zhǔn),不斷更新維護(hù)高質(zhì)量的醫(yī)學(xué)數(shù)據(jù)集,全方位多維度量化模型在各個(gè)醫(yī)學(xué)維度的能力。
近日,由上海AI實(shí)驗(yàn)室和上海市數(shù)字醫(yī)學(xué)創(chuàng)新中心聯(lián)合推出的MedBench評測更新榜單,繼4月份奪冠后,云知聲山海大模型醫(yī)療行業(yè)版(UniGPT-Med)再次以綜合得分82.2的優(yōu)異成績位列全球第一,各項(xiàng)指標(biāo)全面超越GPT-4,充分展現(xiàn)出山海大模型在擁有業(yè)內(nèi)一流的通用能力之外,更具備打造世界領(lǐng)先的行業(yè)大模型的能力。
MedBench致力于打造一個(gè)科學(xué)、公平且嚴(yán)謹(jǐn)?shù)闹形尼t(yī)療大模型評測體系及開放平臺(tái),其基于醫(yī)學(xué)權(quán)威標(biāo)準(zhǔn),不斷更新維護(hù)高質(zhì)量的醫(yī)學(xué)數(shù)據(jù)集,全方位多維度量化模型在各個(gè)醫(yī)學(xué)維度的能力。
MedBench的五大評測維度——醫(yī)學(xué)語言理解、醫(yī)學(xué)語言生成、醫(yī)學(xué)知識(shí)問答、復(fù)雜醫(yī)學(xué)推理、醫(yī)療安全和倫理,構(gòu)成了其專業(yè)評測框架的核心。這一框架吸納了海量醫(yī)學(xué)知識(shí)庫和醫(yī)院醫(yī)學(xué)專家的豐富經(jīng)驗(yàn),涵蓋8個(gè)公開數(shù)據(jù)集和12個(gè)自建數(shù)據(jù)集,總計(jì)約30萬道中文醫(yī)療專業(yè)測評題目,覆蓋了從醫(yī)學(xué)考試題庫到患者服務(wù)、醫(yī)學(xué)問診、病例分析以及病歷生成等廣泛的醫(yī)學(xué)任務(wù),致力為中文醫(yī)療大模型提供客觀科學(xué)的性能評測參考。
今年5月,MedBench平臺(tái)全面升級(jí),不僅引入API評測方式,豐富了參評途徑,還優(yōu)化了開放域問答的評估指標(biāo)。通過醫(yī)學(xué)專家的精準(zhǔn)標(biāo)注,平臺(tái)進(jìn)一步提升了評測結(jié)果的公正性和專業(yè)性。同時(shí),平臺(tái)在數(shù)據(jù)集、評測方法和系統(tǒng)功能等方面也進(jìn)行了升級(jí),旨在為醫(yī)療大模型評測構(gòu)建一個(gè)更加完善的社區(qū)環(huán)境,并提供更加豐富、真實(shí)的實(shí)踐場景。
此次評測,云知聲山海大模型醫(yī)療行業(yè)版(UniGPT-Med)通過API提交方式,不僅以82.2的綜合得分刷新了MedBench評測記錄,更是在各個(gè)維度上力壓GPT-4,排名全球第一。這一成績的取得,是山海大模型醫(yī)療專業(yè)能力的集中展現(xiàn),也標(biāo)志著其技術(shù)迭代和創(chuàng)新發(fā)展達(dá)到了一個(gè)新的高度。
目前,山海大模型通用能力已超越GPT-3.5,并在SuperCLUE 4月評測中躋身國內(nèi)大模型Top10;與GPT-4的對戰(zhàn)中,山海綜合勝率與和率為75.55%。
在醫(yī)療專業(yè)能力上,山海大模型于2023年6月的MedQA任務(wù)中超越Med-PaLM 2,取得87.1%的優(yōu)異成績;在臨床執(zhí)業(yè)醫(yī)師資格考試中以523分(總分600分)的優(yōu)異成績,超過99%的考生水平;其基于山海大模型孵化的醫(yī)療行業(yè)版大模型,也在CCKS 2023 PromptCBLUE醫(yī)療大模型評測中奪得通用賽道一等獎(jiǎng)。
隨著醫(yī)療行業(yè)對智能化、精準(zhǔn)化服務(wù)需求的不斷增長,云知聲山海大模型醫(yī)療行業(yè)版(UniGPT-Med)有望在醫(yī)療健康領(lǐng)域扮演更加關(guān)鍵的角色,為提升醫(yī)療服務(wù)效率、優(yōu)化患者體驗(yàn)、推動(dòng)醫(yī)療科技進(jìn)步提供強(qiáng)有力的支持。
2025年4月10日,Great Place To Work?大中華區(qū)在中國人壽金融中心成功舉辦了2...
試想下不久的將來走進(jìn)一家屈臣氏,走出小區(qū)15分鐘內(nèi)即達(dá),無須前往市中心的購物商圈,也可享受專業(yè)優(yōu)質(zhì)的...
在移動(dòng)學(xué)習(xí)時(shí)代,互聯(lián)網(wǎng)學(xué)習(xí)工具已成為會(huì)計(jì)從業(yè)者學(xué)習(xí)的主要方式。
近期金融市場行情劇烈震蕩,看起來驚心動(dòng)魄,從可能重現(xiàn) 2020 年的市場崩盤(VIX 指數(shù)達(dá)到 60...
投資家網(wǎng)(www.51baobao.cn)是國內(nèi)領(lǐng)先的資本與產(chǎn)業(yè)創(chuàng)新綜合服務(wù)平臺(tái)。為活躍于中國市場的VC/PE、上市公司、創(chuàng)業(yè)企業(yè)、地方政府等提供專業(yè)的第三方信息服務(wù),包括行業(yè)媒體、智庫服務(wù)、會(huì)議服務(wù)及生態(tài)服務(wù)。長按右側(cè)二維碼添加"投資哥"可與小編深入交流,并可加入微信群參與官方活動(dòng),趕快行動(dòng)吧。
FoodHealth重塑營養(yǎng)評分標(biāo)準(zhǔn),750萬美元A輪融資加速“食品即健康”革命