天天時訊：2023年最強悍的國產大模型，這幾家排名前四

2024-01-15 18:18:55來源：今日熱點網

ChatGPT火爆出圈帶火了通用人工智能大模型，據不完全統計，截至2023...

ChatGPT火爆出圈帶火了通用人工智能大模型，據不完全統計，截至2023年8月，僅國內發布的大模型就多達156個，在這些大模型中，表現優異者有，濫竽充數者也有。

就去年8月份新華社研究院中國企業發展研究中心發布的《人工智能大模型體驗報告2.0》、《麻省理工科技評論》發布的大模型評測報告、12月新華社研究院中國企業發展研究中心發布的《人工智能大模型體驗報告３.0》等來看，在當前的國內各主流大模型，綜合性能排名前四的分別有以下幾個：

《人工智能大模型體驗報告2.0》評測結果

《麻省理工科技評論》評測結果

《人工智能大模型體驗報告3.0》評測結果

１.科大訊飛星火認知大模型

在《人工智能大模型體驗報告2.0》中，以1013的綜合性能得分排名第一；

在《麻省理工科技評論》的大模型評測報告中，以81.5的得分榮獲中國“最聰明”大模型稱號；

在《人工智能大模型體驗報告３.0》中，以1775的高分蟬聯冠軍，并獲得基礎能力指數、智商指數、工具提效指數三項評測指標第一。

科大訊飛星火大模型發布于2023年5月6日，具備文本生成、語言理解、知識問答、邏輯推理、數學、代碼、多模態等七大核心能力。其后，星火大模型多次升級迭代，目前最新版本為3.0。

10月份，為深入了解相關大模型的實際應用情況，國務院發展研究中心國研經濟研究院開展了一項大模型行業應用能力測評研究，旨在評估大模型不同行業下的表現情況，分析潛在的應用場景和模式，對比我國大模型與國際一流大模型的行業表現，并在此基礎上提出我國大模型產業高水平發展的政策建議。

選取的大模型包括：星火大模型3.0版、ChatGPT、GPT-4和國內某大模型。

測評行業方面選擇了知識密集型的生產性服務業（法律服務與工業設計）、個性化需求高的生活性服務業（醫療、教育與零售）以及部分制造業（汽車工程、計算機），并基于臨床執業醫師資格考試、中醫執業醫師資格考試、國家統一法律職業資格考試、機動車檢測維修專業技術人員執業資格、全國計算機技術與軟件專業技術資格等權威職業資格考試構建了測評題目，以評估大模型在行業知識、技能掌握水平、生產經營場景理解能力等維度的表現。

評測結果顯示，星火大模型的綜合能力達到國際一流水平，所有7個測評行業中表現均大幅超越ChatGPT，并在部分行業優于GPT-4，在與國內某大模型的比較中也表現優異。

特別是在醫療、法律、教育行業，訊飛星火大模型表現格外突出，中文領域知識和語言理解能力已分別超越GPT4表現5.3%和4.1%，在教育領域基礎能力的表現與GPT4的表現差距小于1%。

２.百度文心一言

在《人工智能大模型體驗報告2.0》和《麻省理工科技評論》發布的大模型評測報告中，百度文心一言分別以1010、72.5的得分位列第二，性能表現僅次于訊飛星火大模型。

據了解，百度文心一言發布于3月16日，主要能力包括文學創作、商業文案創作、數理邏輯推算、中文理解和多模態生成。

百度創始人、董事長兼 CEO李彥宏在發布會上表示，雖然文心一言在內測中并不完美，但是市場有需求必須推出來。

文心一言的技術原理是基于自然語言處理技術和深度學習技術。它通過建立海量的語料庫和深度學習算法，學習文章的句式、語言習慣、修辭手法、篇章結構、時態語態等方面的知識，從而可以根據用戶輸入的關鍵詞和需求，自動生成符合語法和語義的文章段落和句子。

可實現的功能與科大訊飛星火、商湯商量等通用大模型類似。不僅能和用戶聊天，還可以快速生成處理各種各樣的文本內容，如文章、詩歌、歌詞、代碼、圖片等。

2023 年10 月 17 日，文心一言升級到4.0版本，理解、生成、邏輯、記憶四大能力得到提升。

3.商湯商量

在《人工智能大模型體驗報告2.0》中和智譜AI-ChatGLM并列第三，綜合得分983分，在《麻省理工科技評論》發布的大模型評測報告中排名第三，得分68.3。在《人工智能大模型體驗報告3.0》中得分1746，排名第二，并在定量實測的情商維度上，位居全部10款大模型第一，與在定性評估中，與訊飛星火大模型、智譜AI-ChatGLM一起選大模型市場未來領袖象限。

“商量”的寓意是“商量商量，都能解決”。

“商量”一名，實際上點出了ChatGPT類模型的核心，即用戶在多輪對話中，通過“魔法”調教，挖掘大模型解決問題的能力。

據悉，商湯商量于今年4月正式推出，是國內最早推出的基于千億參數大語言模型的產品之一，并一直不斷迭代更新。

圍繞大模型及研發體系商湯以SenseCore商湯AI大裝置為基礎，建立了一套工程化的體系來支撐大模型的快速迭代，軟件、系統和硬件都在以服務大模型快速迭代為目標做研發配合，實現了敏捷、低成本、大批次地做模型迭代，有助于商湯發現大模型最好、最有效的生產配方。

4.智譜AI-ChatGLM

在《人工智能大模型體驗報告2.0》中和商湯商量并列第三，綜合得分983分，在《人工智能大模型體驗報告3.0》中得分1729，排名第三，在定性評估中，與訊飛星火大模型、智譜AI-ChatGLM一起入選大模型市場未來領袖象限。

ChatGLM 是由清華大學創新領軍工程博士張鵬帶領下的團隊開發的一個開源且支持中英雙語的類 ChatGPT 大語言模型，發布于3月18日。

10月27日，智譜AI在2023中國計算機大會（CNCC）上推出了全新的ChatGLM3大模型，這款最新的模型采用了創新的多階段增強預訓練方法，以實現更加充分的訓練效果。

智譜AI的首席執行官張鵬親自進行了新品發布，并通過實時演示展示了產品的最新功能。據介紹，通過使用更豐富的訓練數據和優化的訓練方案，ChatGLM3的性能得到了顯著提升。與之前的ChatGLM2相比，MMLU提升了36%，CEval提升了33%，GSM8K提升了179%，BBH提升了126%。

此外，ChatGLM3還進行了針對GPT-4V的迭代升級，引入了一些全新的功能。其中包括具備多模態理解能力的CogVLM-看圖識語義，在10余個國際標準圖文評測數據集上取得了領先水平；代碼增強模塊Code Interpreter能夠根據用戶需求生成并執行代碼，自動完成數據分析、文件處理等復雜任務；網絡搜索增強模塊WebGLM-接入搜索增強，能夠自動查找互聯網上與問題相關的資料，并在回答時提供參考的相關文獻或文章鏈接。

小結：

盡管2023年，國內大模型發展突飛猛進，涌現出不少標桿產品，在行業應用方面表現優異，但我們也必須看到，人工智能技術的發展是一個持續的過程，需要不斷地進行技術研發和創新。

探索賦能不同行業場景的落地方式將成為我國大模型企業快速發展的重要方向，而行業應用價值也將成為評判大模型的核心指標。唯有出現成千上萬個解決生產、生活真實需求的AI原生應用，大模型才能真正深入社會經濟的各個角落，助力各行各業的產業升級，推動中國經濟的快速復蘇，深刻改變人們的生活方式。

據公開數據，全球范圍內人工智能將持續高速增長，市場規模持續擴大，預計到2032年，全球人工智能市場規模將達到1.3萬億美元。

在充滿活力和機遇的時代背景下，人工智能大模型的興起將持續引領科技進步，無論是在技術創新、商業應用還是在產業變革的推動方面，大模型都將發揮重要作用。伴隨著應用領域的不斷擴展，為各產業發展帶來新的可能性。

免責聲明：市場有風險，選擇需謹慎！此文僅供參考，不作買賣依據。

關鍵詞：

責任編輯：hnmd004