4月24日,商湯集團(tuán)在港交所暫停交易前股價(jià)上漲31.15%。商湯集團(tuán)表示,其大模型日日新5.0發(fā)布會(huì)受到市場(chǎng)極大關(guān)注,公司將進(jìn)一步刊發(fā)相關(guān)公告。在“2024年商湯技術(shù)交流日”上,商湯發(fā)布了其最新的大模型——SenseNova5.0,旨在追趕GPT-4,這反映了中國(guó)大模型行業(yè)的集體目標(biāo)。
商湯通過遵循大語(yǔ)言模型的尺度定律(Scaling laws),在不到三個(gè)月的時(shí)間內(nèi),從SenseNova4.0超越GPT-3.5到SenseNova5.0全面對(duì)標(biāo)GPT-4Turbo。尺度定律強(qiáng)調(diào)了模型性能與模型大小、數(shù)據(jù)量和計(jì)算量之間的冪律關(guān)系。商湯利用科學(xué)試驗(yàn)和數(shù)學(xué)公式預(yù)測(cè)下一代大模型的性能,避免了盲目嘗試。
商湯科技董事長(zhǎng)兼CEO徐立提出,通過小規(guī)模實(shí)驗(yàn)可以預(yù)測(cè)和驗(yàn)證模型架構(gòu)和數(shù)據(jù)配方的有效性,并確保這些結(jié)論在更大規(guī)模上得到保持。SenseNova5.0采用了超過10萬(wàn)億tokens的中英文預(yù)訓(xùn)練數(shù)據(jù),并通過邏輯合成數(shù)據(jù)提升模型的推理、數(shù)學(xué)和編程能力。
商湯還推出了1.8B參數(shù)的SenseChat-Lite,它在主流評(píng)測(cè)中超過了所有開源2B的同級(jí)別模型。此外,商湯發(fā)布了針對(duì)端側(cè)業(yè)務(wù)的SDK,以及企業(yè)級(jí)大模型一體機(jī),支持金融、代碼、醫(yī)療、政務(wù)等行業(yè)的數(shù)據(jù)私有化部署需求。
面向軟件開發(fā),商湯發(fā)布了小浣熊代碼大模型一體機(jī)輕量版,它在HumanEval的測(cè)試中表現(xiàn)超過了GPT-4,支持多種編程語(yǔ)言和上下文,旨在幫助企業(yè)開發(fā)人員更高效地編寫、理解和維護(hù)代碼。
商湯在技術(shù)交流日上強(qiáng)調(diào)了合作伙伴的重要性,并展示了與華為昇騰等公司的合作成果。商湯的AI基礎(chǔ)設(shè)施SenseCore和AIDC算力基座為其提供了強(qiáng)大的支持。商湯的生成式AI業(yè)務(wù)在2023年取得了顯著增長(zhǎng),占總收入的35%。