本文同步刊登在:
「Ai推理」的標準定義是什麼? - blogspot
「Ai推理」的標準定義是什麼? - 巴哈姆特小屋

自從ChatGPT-o1模型(代號「Strawberry」)問世之後,就紛紛開始關心ai模型是否會推理這件事、甚至誤解成只要Ai模型會解開數學題目,就能直接解決真實世界中所有問題的奇怪傳聞出現。

「Ai推理」的標準定義是什麼?
(可自動生成Multi-Chain Reasoning提示詞內容的Gem管理工具)


其實「推理」這門領域,是有具體細分「線性推理」(Linear Thinking)與「非線性推理」(Non-Linear Thinking)的區別,一般常見的「數學計算」、「只要有翅膀,就認為所有鳥類都會飛」的推理,都是屬於「線性推理」的範疇。至於複雜多元領域的問題則是屬於「非線性推理」,可以在不同的知識上建立起知識網路來實現複雜推理。

「Ai推理」的標準定義是什麼?「Ai推理」的標準定義是什麼?


所以,使用「線性推理」(Linear Thinking)來當成智力標準,筆者反而是只覺得低估了專門處理大量複雜內容的「非線性推理」(Non-Linear Thinking)優勢。

因此,若要測試一個Ai模型是否有具備「非線性推理」(Non-Linear Thinking)的能力,我們可以從詐騙集團的對話紀錄、法院已裁定的犯罪案件之紀錄片的對話紀錄、電競賽事勝負預測、商業行為的決策議題來進行驗證。

反之,若要佐證一個Ai模型是僅只具「線性推理」(Linear Thinking)的能力,則可以從目前已知存在的數學題目之類需要採用一步一步才能得到結果的方式進行驗證。

延伸閱讀:
[實測] Claude 3、Google Gemini Pro v1.0、ChatGPT-4 Turbo - 詐騙對話紀錄文本分析測試
[有雷]以「愛、纏、殺:誰是恐怖情人?」進行ai模型推理測試
ChatGPT-4o與Google Gemini 1.5 Flash模型的複雜任務比較
棋類遊戲與上下文推理的關係
Claude 3模型與Google Gemini Pro v1.0模型的視覺推理對決
人工智慧模型的前因後果理解挑戰:以ChatGPT與律師需求為例

「Ai推理」的標準定義是什麼?

最後,筆者來分享一個最近自己經常使用在Google Gemini 1.5 Flash的多重思維鏈(MCR,Multi-Chain Reasoning)提示詞:

「請以拆解任務、規劃子目標並評估結果的方式,推理分析OOOOO」,這是筆者最近頻繁使用到的一句思維鏈提示詞。然後剛好拿一篇待求證的文章,用來測試一個更適合萬用情境的多重思維鏈(MCR,Multi-Chain Reasoning) + 自動決策選擇知識圖譜的提示詞,對應詐騙訊息的實戰效果如下:

「Ai推理」的標準定義是什麼?
(截圖來源出處:cofacts真的假的?)

Google Gemini 1.5 Flash判斷結果如下:
「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?

影片測試:



然後是,9x9數獨的部分:
「Ai推理」的標準定義是什麼?

Google Gemini 1.5 Flash的回答:
「Ai推理」的標準定義是什麼?




不知道各位是否還記得,西元2016年3月橫空出世、迎戰韓國職業棋士9段李世石的AlphaGo嗎?這回,我們將使用多重思維鏈(MCR,Multi-Chain Reasoning)提示詞,在Google Gemini 1.5 flash上重現AlphaGo在棋類遊戲上技壓眾人的能力,但這次不挑戰圍棋,改挑戰測試台灣十分熟悉的中國象棋。





多重思維鏈(MCR,Multi-Chain Reasoning)指令的應用:視覺推理,這邊直接上網隨機找真人實測對弈中國象棋:
「Ai推理」的標準定義是什麼?



我們直接以這個對弈畫面來給Google Gemini 1.5 Flash進行判讀,使用的提示詞與前例完全不同。
「Ai推理」的標準定義是什麼?



Google Gemini 1.5 Flash判斷結果如下:

「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?



然後,換這張對弈截圖來給Google Gemini 1.5 Flash判讀
「Ai推理」的標準定義是什麼?

Google Gemini 1.5 Flash判斷結果如下:
「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?

最後是換這張來判讀。
「Ai推理」的標準定義是什麼?

Google Gemini 1.5 Flash判斷結果如下:
「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?


結果,執黑棋的人類玩家選擇認輸了,執紅棋的玩家藉由Google Gemini 1.5 Flash輔佐下獲勝。
「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?

實際完整的11分鐘對弈影片:




緊接著簡單示範一下,使用多重思維鏈(MCR,Multi-Chain Reasoning)指令來針對圍棋進行黑子下一步的行動建議。


Google Gemini 1.5 Flash :
「Ai推理」的標準定義是什麼?

「Ai推理」的標準定義是什麼?



圍棋開局是這樣:
「Ai推理」的標準定義是什麼?

Google Gemini 1.5 Pro看完開局的建議:

「Ai推理」的標準定義是什麼?

黑子沿途遵循Google Gemini 1.5 Pro的最佳走法建議後,該棋盤長這樣:
「Ai推理」的標準定義是什麼?


這三張則是透過Google Gemini 1.5 Pro給出的分析建議中,由玩家從中選擇出來下圍棋的結果:
「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?



圍棋測試總結:
基本上,只要用戶對圍棋擁有最基本規則的了解(例如:厚、薄、氣、眼、劫、活棋、目數...等),搭配多重思維鏈(MCR,Multi-Chain Reasoning)提示詞 + Google Gemini 1.5 Pro整體上就會強到有感,反之,如果用戶完全不會下圍棋、也看不懂圍棋,那麼,就算生成式AI可以針對圍棋給出具體有用的建議內容,就整體成效來說,也會跟著大打折扣,淪為差評。(簡單的說,Google Gemini 1.5 Flash與1.5 Pro都有專家系統,只是關鍵在於用戶本身是不是有涉獵該領域的知識。)

影片實測:



衍生相關測試:


延伸閱讀:
傳Google正在研究推理AI 奮力追趕OpenAI
Improve Mathematical Reasoning in Language Models by Automated Process Supervision
Chain-of-Thought Reasoning Without Prompting
Intelligence at the Edge of Chaos

Google Gemini 1.5 Flash辨識Ai生成圖片系列:

「Ai推理」的標準定義是什麼?
(圖片出處:https://villawijnland.nl/product/trio-taste-delight/)
「Ai推理」的標準定義是什麼?




「Ai推理」的標準定義是什麼?
(圖片出處:ChatGPT 4o + Copilot and ALL Ai生成式藝術小小詠唱師)
「Ai推理」的標準定義是什麼?


「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?

臨時減班、需要調整發車時間的時候,透過多重思維鏈(MCR,Multi-Chain Reasoning)讓Google Gemini 1.5 Flash逐一檢視各時段的發車時間表。
「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?


結果時間點上真的是非常剛好,在西元2024年10月19日當天,臨時洽好有司機又臨時請病假,敝人馬上就立即使用Google Gemini 1.5 Flash來快速調整發車班次,可真的是有備無患。
「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?

影片實測:



當B路線臨時有狀況不能發車,必須要靠A路線,去支援B路線時,同時調整其他A路線的所有發車班次:
「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?

影片實測:


透過多重思維鏈(MCR,Multi-Chain Reasoning)讓Google Gemini 1.5 Pro檢測來自ChatGPT-4o的加密錢包代碼,受害事主是在X平台(原推特)上貼文公開表示的。
「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?
(圖片來源出處:X平台(原推特)

附上被害人與ChatGPT-4o mini的對話副本全紀錄:
https://chatgpt.com/share/67403c78-6cc0-800f-af71-4546231e6b10

附上相關新聞:
用 AI 寫程式碼暗藏「陷阱」:用戶求助 ChatGPT,反被釣魚「盜幣」
AI 對加密產業發出攻擊!ChatGPT 代碼暗藏陷阱,寫迷因 Bot 反被釣魚
AI投毒第一案! GPT寫的程式碼竟有後門程式設計師被騙2500美元
小心!網民以ChatGPT開發炒幣機器人「遭埋後門」,私鑰洩漏錢包瞬間被清空
AI投毒第一案! GPT寫的程式碼竟有後門程式設計師被騙2500美元

Google Gemini 1.5 Pro使用Gem管理工具實測:
「Ai推理」的標準定義是什麼?
「Ai推理」的標準定義是什麼?



使用Chain-of-Thought (CoT)思維鏈聞名天下的o1-mini判斷結果,居然會把第三方的惡意API列為是安全可信任的。
「Ai推理」的標準定義是什麼?



影片實測:



完整的資安事件報告,內容與Google Gemini 1.5 Pro分析的結果完全一致。
「AI投毒」防不勝防,還能用ChatGPT寫代碼嗎?

延伸閱讀:
AI是否真的會搶走人類的工作?(這篇有實際的案例可以解惑)




Google宣布,要在美國時間西元2024年12月11日星期三 09:30~10:00,將對外發表使用LLM模型推理的方式,讓語言模型成為西洋棋冠軍。

「Ai推理」的標準定義是什麼?
(消息來源: NeurIPS 2024




參考資料來源:
跳躍性思維 - 維基百科
線性思維 - MBA百科
【個人成長】 4大線性思維陷阱 看看自己是不是「死腦筋」!
Linear Thinking: The Ultimate Guide to the Linear Thought Process
Non-Linear Thinking: The Ultimate Guide to Non-Linear Thinking
Beyond Single-Track Thinking: Multi-Chain Reasoning Makes LLMs Smarter and More Explainable
Answering Questions by Meta-Reasoning over Multiple Chains of Thought
Multimodal Chain-of-Thought Reasoning in Language Models
Retrieval-augmented Multi-modal Chain-of-Thoughts Reasoning for Large Language Models
Improve multi-hop reasoning in LLMs by learning from rich human feedback
oriyor / reasoning-on-cots
Intelligence at the Edge of Chaos
GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
企業 AI 轉型的三個方向:All About Agent
AI是萬能的?專家指「大眾過度期待」:AI只能做人類專家會的事
一流人專做開源未來事,二流人專做停滯不前淘汰事,三流人只做問題進行事,四流人只做同溫取暖裝傻事。
文章關鍵字
文章分享
評分
評分
複製連結

今日熱門文章 網友點擊推薦!