“ChatGPT像互聯網發明一樣重要,將會改變世界。”
比爾·蓋茨對于大模型的預判似乎正在一步步成為現實。
在過去的一年里,OpenAI在AI(人工智能)領域獨領風騷,無論是ChatGPT的普及,還是其內部的風波,都成為了業界的焦點。
然而,隨著Mistral AI的崛起,這一格局正在經歷前所未有的變革。
作為OpenAI的強勁對手,Mistral AI在技術和產品層面均展現出令人矚目的突破,已然成為AI領域的一顆耀眼明星,被稱作“歐洲版OpenAI”。
與OpenAI相比, Mistral AI更加注重技術的實際應用,致力于將最先進的AI技術應用于解決實際問題。

在融資方面,Mistral AI在成立之初便獲得了1.13億美元的種子輪融資,并吸引了多家著名投資機構,如Lightspeed Venture Partners、Salesforce和法國巴黎銀行等。
在短短幾個月內,該公司又完成了4.15億美元的A輪融資,估值高達20億美元。這一融資規模在AI初創公司中極為罕見,不僅證明了資本市場對Mistral AI的高度認可和期待,也為其未來的發展提供了強大的資金支持。
Mistral AI的崛起,不僅對OpenAI構成了挑戰,更為整個AI領域注入了新的活力,為整個行業帶來了更多的創新與突破。
01 引領人工智能革命的創新力量
Mistral AI全名為Mistral Artificial Intelligence,是一家專注于AI研發和應用的公司,尤其是用于構建在線聊天機器人、搜索引擎和其他AI驅動產品的技術。
自成立以來,Mistral AI一直堅持以人為本,他們希望通過開發更加智能、更加人性化的AI系統,改善人們的生活和工作方式,為人類帶來更多的便利和福祉,致力于利用先進的AI技術為各行各業提供高效、智能的解決方案。
盡管只是一家初創企業,但Mistral AI的創始人團隊個個來頭不小。
其中,Arthur Mensch曾擔任谷歌人工智能公司DeepMind的研究員,Timothée Lacroix和Guillaume Lample則分別在Meta公司擔任與該技術相關的職位。
曾經的工作經歷讓他們對多模態、RAG、算法優化等技術有著深刻理解,并在模型推理、預訓練和模型嵌入等領域有著深入研究。

Mistral AI官網上的這段話充分展現了Mistral AI的野心:“我們的使命是推動AI向前發展,為開放社區和我們的企業客戶服務。我們致力于通過開發與專有解決方案不相上下的開放式重量模型來推動AI革命。”
盡管Mistral AI目前只是小型創意團隊,但他們始終堅持高科學標準,并通過突破性的創新來開發高效、有用和值得信賴的AI模型。這或許正是Mistral AI備受青睞的原因之一。
02 大語言模型的重大飛躍
Mistral AI最備受矚目的產品無疑是Mixtral 8x7B,這是目前市場上最具競爭力的開放式大型模型之一,擁有多項特別的功能,性能明顯領先于其它大模型。
Mixtral 8x7B的核心在于其創新性十足的MoE(Mixture of Experts)架構,MoE架構通過一個網關網絡,將輸入數據分配給被稱為“專家”的特定神經網絡組件。在Mixtral 8x7B中,共有八個這樣的專家,每個都有著高達70億的模型參數。
盡管配備了八個“專家”,但在實際運算時每個數據處理僅需兩個“專家”參與。這種數據資源分配算法,極大地在保持模型性能的同時,優化了處理速度,同時保持了模型性能。

在培訓和微調方面,Mixtral AI使用多語言數據進行預訓練,包括英語、法語、意大利語、德語和西班牙語。Instruct模型使用監督微調和直接偏好優化(DPO)進行訓練,在MT-Bench等基準測試中取得了高分。
在對Mixtral 8x7B進行深入研究時,Mistral AI也十分注重對其部分功能進行微調,特別是針對那些能夠跟隨指令操作的版本,使得模型朝著更加精細化和個性化的方向發展。
除了自身的超強性能以外,Mixtral 8x7B廣受好評的另一個重要原因是它所代表的開放性。
Mistral AI在發布這一大模型時便直接公開了這個模型的權重數據,這種策略在吸引AI社區的注意力方面非常有效,同時確保了學術和商業用途的廣泛可訪問性。Mixtral AI的開放性鼓勵著多樣化應用的出現,有可能在大模型和語言理解方面帶來新的突破。
Mixtral 8x7B的創新方法和卓越性能使其成為大模型領域的行業標桿,盡管已經取得如此成就,Mixtral AI也從未停下前進的步伐,依然在積極優化這一模型的相關性能。
03 Mistral AI的里程碑式發展
Mixtral 8x7B的誕生標志著AI技術的一個重要突破,尤其是在模型結構和效率上的創新,那么和一眾大模型比起來它又表現如何?
能否超越巨頭?
自ChatGPT問世以來,OpenAI一直被視為大語言模型的黃金標準。然而,Mistral AI通過引入一個完全開源的開放權重模型,在廣泛的基準測試中表現出卓越的性能,甚至在部分表現上超越了OpenAI的GPT 3.5模型和Meta的LLama 2 13B模型。

具體而言,在多領域的大規模多任務語言理解(MMLU)測試中,涵蓋數學、美國歷史、計算機科學、法律等57個科目,Mistral AI以60.1%的準確率脫穎而出,而Llama 2 7B和Llama 2 13B的準確率分別略高于44%和55%。
同樣,在涉及常識推理和閱讀理解的測試中,Mistral 7B的表現優于這兩個Llama模型,準確率分別為69%和64%,凸顯了其在深度語言理解領域的優勢。
Mistral 7B之所以在深度語言理解方面表現優秀,是因為在訓練過程中接觸到了大量復雜、多變的文本數據,增強了其語境感知和推理能力,使得Mistral 7B在測試時能夠更好地理解和把握文本的內在邏輯和語義信息,從而給出更準確、更深入的回答。
與GPT3相較而言,Mistral AI聚焦于快速推理和處理更長的序列。利用分組查詢和滑動窗口注意力機制——基于注意模型的一種注意模式,實現了對更低的延遲和更高吞吐量的優化。這使其適用于以更低的成本實現大批量、快速加工的應用場景,成為節約成本效益的最佳選擇。

對比之下,GPT3以其深入語言理解能力和多任務處理能力而聞名,并且它被優化用于處理更短的序列。例如GPT3在問答系統任務中表現出色,能夠理解和生成準確的答案;得益于強大的語言理解能力,它能夠快速地總結長篇文本;另外GPT3還可以執行文本補全、語言翻譯、情感分析等。
高性能小型模型,但缺乏“安全護欄”
Mistral 7B以其高性能和強適應性備受關注,具有“小數字足跡”的特點,即模型在運行時所需的計算資源和存儲空間較少。
相較于其他對強大硬件嚴格依賴的模型,Mixtral 7B甚至可以在沒有獨立GPU的小型個人電腦上運行。這使得其可以靈活運用部署工具,如vLLM推理服務器和skypilot開源框架等部署在任何云平臺上,包括AWS、GCP和Azure。同時,該模型也支持與開發人員提供的參考實現在本地協同使用。

盡管其高性能和靈活部署的能力突出,安全性卻成為Mistral AI的漏洞之處。
GPT3和Llama 2等LLM模型具有嚴格的內容過濾器,可以拒絕生成母公司認定為有害的消息,Mixtral 7B卻缺乏這一“安全護欄”。曾有用戶向Mistral AI的問答模型詢問如何制造炸彈和實施謀殺,其聊天機器人竟然給出了細思極恐的細節指導。
盡管Mistral AI團隊致力于開放分享其技術,但這可能成為其AI產品的一把雙刃劍,因為監管機構可能會因其缺乏傳統內容過濾器而對該模型采取更嚴厲的措施。
另一方面,Mistral AI的CEO Arthur Mensch曾在AI安全峰會上表示:“開源帶來的風險和益處之間存在一種權衡,我們需要通過動態的對話來尋找最佳解決方案。”
據悉,該公司正在構建一個具備模塊化過濾器和模塊化機制的平臺,用于管理模型網絡。也許,該公司將從模型內部構建方面,著手AI安全和防護問題。
在如今競爭激烈的大語言模型中,Mistral AI憑借其卓越的性能和出色的適應性脫穎而出。然而,面臨潛在的AI安全性挑戰,行業人員也正思考如何在開源與安全之間取得權衡之道。
04 與谷歌云共創智能未來
眾所周知,谷歌云在全球云計算領域堪稱佼佼者,而當它與AI領域的黑馬Mistral AI相遇,一個充滿無限可能的未來正逐漸展現在我們眼前。
上個月,谷歌云宣布和Mistral AI建立全球合作伙伴關系,Mistral AI將使用谷歌云的基礎設施來分發和商業化其大型語言模型。

借助谷歌云強大的云計算和大數據技術,Mistral AI在模型推理、預訓練等領域有望取得前所未有的突破。這不僅將進一步推動AI技術的發展,更將為各行業帶來更為智能、高效的解決方案。
與此同時,雙方的合作也將加速Mistral AI在各個行業的落地應用。無論是電商、金融、醫療還是教育,Mistral AI都將為人類帶來更多便利和福祉。
當然,Mistral AI的崛起并非偶然。作為一家充滿活力和創新精神的公司,Mistral AI始終致力于探索AI技術的邊界,并將其應用于解決實際問題。
其出色表現和創新能力,使得人們不禁開始思考:這家初創公司是否有可能超越OpenAI,成為歐洲AI領域的領軍者?讓我們拭目以待。