色欲aⅴ亚洲情无码AV蜜桃_中文字幕亚洲情99在线_熟妇中国 @TUBE UMTV_麻豆亚洲AV永久无码精品久久

當前位置:首頁 > 公司介紹 > 正文

分不清9.11和9.9大小暴露大模型邏輯推理短板

【新澳门内部资料精准大全】
【2024澳门天天开好彩大全】
【澳门一肖一码100准免费资料】
【2024澳门特马今晚开奖】
【2O24澳彩管家婆资料传真】
【2024正版资料大全免费】
【管家婆一肖-一码-一中一特】
【澳门一肖一码必中一肖一码】
【2024澳门正版资料免费大全】
【澳门王中王100%的资料】
【2024澳门天天六开彩免费资料】
【澳门今晚必中一肖一码准确9995】
【澳门资料大全正版资料2024年免费】
【澳门一码一肖一特一中2024】
【澳门管家婆一肖一码100精准】
【494949澳门今晚开什么】
【2024一肖一码100精准大全】
【2024澳门今天晚上开什么生肖】
【新澳门精准资料大全管家婆料】

  ■?觀察家

  邏輯推理被認為是當前大模型最難以攻克的一道關卡。

  一道小學數學題,成功難倒了超過一半的大模型。近日,據報道,經測試,在“9.11和9.9兩個數字哪個更大”這個基礎的數學題上,國內外12個大模型之中只有4個答對了,剩下8個全都回答錯誤。在答錯者中,還包括了知名的ChatGPT-4o。

  數學相關的邏輯推理能力一直是當下大模型的短板。但一道小學生級別的數學題,卻成了各家標榜成為“生產力升級”的大模型面前的絆腳石,這在公眾輿論之中引發了不小爭議。究其原因,是近期公眾對于“大模型無所不能”的傳統認知與大模型當下仍處在測試探索期的現實之間產生了沖突。

  實際上種種跡象顯示,大模型當前在純數學問題上的真實能力應該就處在小學水平的區間。2023年底,OpenAI(美國人工智能研究公司)內部曾被曝光有一個代碼為Q的“絕密大項目”,該項目正是致力于解決大模型在數學運算能力上的問題。

  今年高考期間,有媒體同樣用高考數學題“考驗”了大模型,參與測試的7個大模型在高考數學上全部“不及格”,最高分也只有75分。

  這并不能理解為大模型有了高考數學75分的水平。大模型是一個“不怎么懂數學運算、但懂得大量搜索文字資料分析”的主體,而75分是其可以通過資料搜集比對分析所能取得的最好成績。

  從這個角度看,外界認為大模型是“文科生”似乎也不算是一種偏見。當前用戶可以感知到的大模型,是基于海量文本的相關性進行訓練分析,從而達到文本生成的人類平均水平。

  但除了文本的分析和生成之外,人類對信息的搜集分析處理中最重要的是推理能力,包括了邏輯推理、認知推理等。

  數學運算是典型的邏輯推理能力。即根據前提條件給出符合邏輯或潛在邏輯關系的結論,而數學運算是用精確的語言和符號進行純邏輯的推演,因此,如此理解的話,更能直觀地感受到大模型的邏輯推理能力。

  邏輯推理被認為是當前大模型最難攻克的一道關卡。邏輯推理對于大模型的未來發展為什么重要?從應用場景上看,推理能力意味著可靠性和適配性的問題。

  目前,大模型所展現的應用場景主要局限在資料分析、內容生成等領域,而在涉及數字分析、邏輯推演等行業領域,大模型的想象空間依然有限。因此,國內外的大模型企業已經開始有意識地探索“如何訓練大模型在特定條件下的推理能力”。

  從消費者的角度看,如果希望大模型能夠在數理分析、邏輯推理等領域成為有效助手,或許還有賴于大模型在推理訓練上的下一階段突破。但或許更值得思考的問題是:當大模型掌握了推理能力,那么,距離進一步攻破人類的思維活動或許就真的不遠了。一些人對此有所擔憂,人類真的做好準備了嗎?

  □王曉凱(媒體人)

發表評論