

那什麼是Ai Agent?它跟主流傳統的生成文本、影片、圖片的ChatGPT又有什麼不同之處?
原本的傳統LLM模型體驗是:
依賴人類用戶輸入一種提示詞,LLM模型透過提示詞內容,直接自行生成長篇文本或圖片、影片,然後就沒了,基本原理就是靠RAG檢索去比對要搬的文本資料來源。(從操作輸入提示詞開始就是完全依賴大量的人工作業、最後輸出結果的正確性與否同樣還是依賴人工自行判斷。)

但Ai Agent完全不是如此,它可以透過用戶進行的語音轉文字、打字輸入問題的方式,藉此驅動Ai自動化執行一連串的行為操作,過程完全依靠模型自主「推理」、「決策」、「規劃」、「執行」,過程中完全不需要人為干預,模型本身就可以自行「推理」、「決策」、「規劃」、「執行」。
Ai Agent工作原理如下:
感知: 分析當前的棋局對弈內容。(接收棋盤資訊)
推理: 根據檯面上的棋局,預測接下來的棋盤動向與需要注意的部分。(分析局勢、預測對手行動)
決策: 根據推理的結果,選擇最佳的下一步走法。(從多個可能的走法中選擇最佳方案)
規劃: 給出可以讓棋局獲勝的當前建議。(構想一系列的走法,以達到勝利)
執行: 執行上述步驟。(移動棋子)
因為前者完全需要人工手動作業、不斷重複輸入提示詞回答,不會有任何的具體行動,還很需要人類自行判斷決定是否採用LLM生成的內容方案。
由於Ai Agent本身完全不用人工干預過程,Ai就可以自己決定應該要如何採取行動、順利完成目標,因此人類只需要丟問題給模型就可以解放雙手了。
例如說:我跟Ai模型說:「我要出門了!」然後它就會自動推理、決策,自動執行用戶出門的相關的作業流程。(例如:電腦、電視、電燈、電器全部幫我關好。)
不用像傳統的生成式Ai那樣,用戶就是只能傻傻地看語言模型在那邊長篇大論、生成影片、生成圖片,最後還不是要用戶自己去逐一檢查確認、自己逐一去手動關閉。所以未來的工程師是不用坐在電腦前面上班的,基本就會像業務一樣到處趴趴造。
可能就是我今天就坐在自駕車上,全程透過語音下指令,讓代理人遠端代替我處理內勤工作,然後我人是直接去找舊客戶、開發新客戶,當我需要資料的時候,我可以要求代理人幫我傳真、或是上傳到ibon 列印,我人再去超商印出文件檔案來。
Ai Agent才是真的泛用與商用落地、該模型可以有自主判斷、思考行為的模型,至於行為標準都是對標人類專業知識的部分,換句話說,像打遊戲的操作、判斷、攻略破關、網路客服的對話與查詢資料的決策行為,也不用人類玩家中途干預介入,因為這已經不是傳統的LLM模型,凡事都需要透過人類自行評估意見後再決定是否執行。
不過,這邊還有一個重點,市場上討論許久的「邊緣運算」技術,本身就是主要是應用在Ai Agent部份。由於 AI Agent 需要即時處理大量的感測器數據和執行複雜的決策,因此需要在靠近數據源的邊緣設備上進行運算,以減少延遲和提高效率。
那麼Google Gemini 2.0的Ai Agent有什麼具體的應用場景可真正落地、變現?
由於Ai Agent強項就是對標人類的「推理」、「決策」、「規劃」、「執行」能力,所以主要的應用場景,都會集中人機協作上,像我們使用電腦打game、打報告、寫code、製作excel報表.....等,這便是一種最常見的人機協作行為。然而,Ai Agent的強項就是對標人類在這個領域方面。
更具體的應用場景: 除了上述例子,還可以更具體地描述應用場景:
遊戲方面: AI Agent 可以作為遊戲中的智能 NPC,提供更逼真的互動體驗;可以分析玩家的遊戲行為,提供客製化的遊戲建議;甚至可以作為玩家的 AI 隊友,共同完成遊戲任務。例如,Google 展示的 AI 在《部落衝突》中提供兵種建議的例子。
辦公方面: AI Agent 可以協助撰寫報告,例如自動整理資料、生成圖表、檢查語法錯誤;可以協助處理 Excel 報表,例如自動分析數據、預測趨勢;甚至可以協助規劃行程、安排會議等。
程式設計方面: AI Agent 可以協助生成程式碼、除錯、程式碼審查;可以根據自然語言描述自動生成程式碼片段,提高開發效率。例如,Google 展示的 Jules 程式碼 Agent。
瀏覽網頁: AI Agent 可以根據用戶的指令,自動在網頁上執行任務,例如查找特定資訊、填寫表格、比較商品價格。這就像 Google 展示的 Project Mariner 項目。
通用助理: 像 Project Astra 這樣的通用 AI 助手,可以整合各種工具和服務,提供更全面、更個人化的協助。例如,語音翻譯、地圖導航、資訊檢索等。
多模態互動: Gemini 2.0 的一個重要特點是支援多模態輸入輸出,這意味著 AI Agent 可以透過文字、語音、圖像、影片等多種方式與人類互動,提供更自然、更直觀的體驗。例如,使用者可以透過語音指令與 AI Agent 互動,或讓 AI Agent 分析圖片和影片內容。
「代理人工智能」(Agentic AI)的概念: 強調 Gemini 2.0 的 AI Agent 不僅是被動地回答問題,而是能夠理解複雜的上下文,提前規劃多個步驟,並在使用者授權下採取行動。這意味著 AI Agent 可以更主動地協助使用者完成任務,而不僅僅是提供資訊或建議。
與其他技術的結合: 說明 AI Agent 可以與其他技術結合,例如搜尋引擎、地圖服務、程式碼儲存庫等,提供更強大的功能。
那介紹這麼多,目前已經有先行上線的Gemini 2.0 Flash Experimental、網頁代理、程式碼代理,但在台灣目前只有Gemini 2.0 Flash Experimental可以嘗鮮,但限制在網頁版上使用,明年才會下放到Gemini app上,其他皆為實驗版功能,預計未來可能會免費陸續對全球用戶開放使用。
(順便提一個Google官網從沒說到的細節小秘密,Google Gemini Flash系列強項是文字辨識方面,例如:麻將、中國象棋,然後Google Gemini系列強項則是視覺推理方面,例如:圍棋這類物件數量較為龐大、密集的,當然,這也包含手機端辨識現實場景物件及語音對話互動的部分。)

至於最受注目的即時串流影像對話功能,則是在開發版上免費使用,但目前僅支援英文。


串流對話服務,將使用以下積木玩具來做測試。

關於Google Gemini 2.0 Flash記憶功能:
基本上只要上傳過照片進行對話提問,然後刪除掉原本第一次的對話紀錄,再重新發起第二次的全新對話、再次上傳相同的照片,那麼Google Gemini 2.0就可直接正確識別出來了。
這邊以商用的多功能事務機做為示範:

Google Gemini 2.0 Flash已經正確識別出來

答案:

在YouTube影片的逐字稿表現部分,相比Google Gemini 1.5 Flash已經好上不少,可以在無須提示詞的情況下,直接自動翻譯成中文內容。
至於影像識別的精準度部分?我們就用圍棋影像來進行測試。
先用Gemini 1.5 Pro測試

結果如下:

再來,Google Gemini 2.0 Flash 實驗版的結果:

答案:

結果很明顯,Gemini Flash模型系列的模型,特徵就是不擅長處理這種高精準度的影像辨識。
再來是實測ARC-AGI (抽象推理)題目


正確答案:

影片:
再加碼實測Google Gemini 2.0 flash thinking在圍棋方面的推理能力。
圍棋題目:

Google Gemini 2.0 flash thinking回答:

前面提到關於「推理」、「決策」、「規劃」能力的具體標準是什麼,這邊簡單的解釋一下:
要知道一個AI模型是否同時具備這三種條件,最簡單的方式就是拿中國象棋、井字遊戲、寶可夢卡牌手遊的截圖畫面 + 問題(不是用提示詞引導AI模型回答用戶心中所期望的正確答案。)去測試,來藉此判斷缺認這個AI模型能否能同時滿足「推理」、「決策」、「規劃」三種能力。
這裡以井字遊戲、寶可夢卡牌手機遊戲、評估企業預算編列、極限數獨3x3的部分實測Google Gemini 2.0 Flash實驗版的「推理」、「決策」、「規劃」能力:
井字遊戲:

輸出結果:

遊戲截圖:

問題:

分析寶可夢卡牌對戰局勢
**免責聲明:** 鑑於圖片資訊有限,以下分析僅根據可見資訊進行推測,實際對戰情況可能因未顯示的卡牌、雙方玩家的策略和運氣而有所不同。
場上局勢分析
* **你的牌組:**
* **優勢:** 火系能量充足,焰後蜥、火恐龍、烈焰馬皆為火系寶可夢,可發揮出強大火力。拉達具有較高的HP,可作為抵擋攻擊的肉盾。
* **劣勢:** 前排的焰後蜥HP較低,容易被對手擊倒。後排寶可夢雖然攻擊力強,但需要消耗較多能量。
* **對手的牌組:**
* **優勢:** 拉派斯特擁有高HP和多種攻擊方式,是對手的主要火力來源。妙蛙種子具備草系攻擊,可以克制火系寶可夢。
* **劣勢:** 坐騎小羊和坐騎山羊的HP較低,容易被快速擊倒。
雙方玩家可能的策略
* **你:**
* **短期目標:** 盡快擊倒對手的坐騎小羊和坐騎山羊,削弱對手的防守能力。
* **長期目標:** 利用火系能量集中攻擊拉派斯特,同時保護後排寶可夢。
* **可能使用的卡牌:** 火系能量、火系攻擊招式、寶可夢交換等。
* **對手:**
* **短期目標:** 利用拉派斯特的攻擊,快速擊倒你的焰後蜥,造成壓力。
* **長期目標:** 等待機會使用妙蛙種子的草系攻擊,克制你的火系寶可夢。
* **可能使用的卡牌:** 無色能量、草系攻擊招式、撤退工具等。
對戰走向預測
* **接下來幾回合:** 你可能會先用火恐龍或烈焰馬攻擊坐騎小羊或坐騎山羊,削弱對手的防守。對手則可能繼續用拉派斯特攻擊你的焰後蜥,同時尋找機會使用妙蛙種子的攻擊。
* **最終勝負:** 勝負的關鍵在於雙方玩家的卡牌抽取、能量管理和策略運用。如果你能有效地擊倒對手的後排寶可夢,並保護好自己的主要攻擊手,那麼獲勝的可能性會更高。反之,如果對手能成功地拖延時間,並找到機會使用妙蛙種子的克制攻擊,那麼勝負可能就會逆轉。
作為你的對策
1. **集中火力攻擊坐騎小羊和坐騎山羊:** 盡快解決這些HP較低的寶可夢,減少對手的防守壓力。
2. **保護焰後蜥:** 考慮使用寶可夢交換或其他方式,將焰後蜥換下場,避免被對手集火攻擊。
3. **合理分配能量:** 不要將所有的能量都集中在一個寶可夢身上,以免被對手一擊打倒。
4. **留意對手的卡牌:** 注意對手抽取的卡牌和使用的招式,提前預測對手的行動。
5. **靈活應變:** 寶可夢對戰充滿變數,要根據實際情況調整自己的策略。
**總結:**
這場對戰的勝負充滿了未知性。雙方玩家都擁有各自的優勢和劣勢,最終的勝利者將取決於雙方玩家的策略和運氣。作為你,應該根據對手的行動,靈活調整自己的策略,爭取獲得最終的勝利。
**請注意:** 這只是一種可能的對戰走向,實際情況可能會有很大的不同。如果你能提供更多的資訊,例如雙方玩家的牌組構成、棄牌區的卡牌等,我就能更準確地分析這場對戰。
**想要獲取更詳細的分析,建議你查閱寶可夢集換式卡牌遊戲的官方規則和相關攻略。**
**希望這些分析能對你有所幫助!**
**是否想繼續模擬對戰,或是針對某個特定情況進行分析?**
**你可以提供以下資訊:**
* 雙方玩家的牌組列表(如果可以的話)
* 棄牌區的卡牌
* 你想針對哪個特定的情況進行分析(例如:對手使用妙蛙種子的攻擊時,我該如何應對?)
我也能提供一些關於寶可夢卡牌遊戲的基礎知識和常見策略,幫助你更好地理解這項遊戲。
評估企業預算編列:

難度最大的3x3數獨:

Google Gemini 2.o Flash的回答:

正確答案:

解決職場上的工作流程問題:







Google搜尋+記事本的代理任務

Google地圖+Google日曆的代理任務

Google 搜尋 + Google keep、Google日曆+Google Map代理任務
-------------------------------------------
Google Gemini 2.0 Flash Thinking免費登場!

直接實測我工作上遇到的問題:


本次測試使用的題目:

延伸閱讀:
「Ai推理」的標準定義是什麼?
AI是否真的會搶走人類的工作?(這篇有實際使用中的職場案例可以解惑)
集結當前四種Ai技術最強夢幻組合
相關閱讀:
Google Gemini 1.5 Pro 深度研究工具 Deep Research 發表
邁向 Gemini 2.0!Gemini 2.0 Flash 新模型登場,為 AI 代理設計
Google Gemini 2.0 登場:原生圖像、音訊輸出,現已開放預覽
Google公布名為Project Mariner的人工智慧助理服務,可分析螢幕畫面、接手功能操作
Google公布Gemini 2.0 推出3種代理人
隆重推出 Gemini 2.0:我們迎向代理式 AI 時代的新模型
Google Cloud 推出 Google Agentspace 和 NotebookLM Plus 助力提升企業生產力
Android XR改用Hey Gemini啟動操作 Project Moohan部分設計曝光
科技巨頭競相推出的AI代理 (AI Agents) 是什麼,與現在的AI聊天機器人有何不同?
AI代理2025年即將推出 排行程、架網站、寫教案都能直接幫你做到好?
AI是萬能的?專家指「大眾過度期待」:AI只能做人類專家會的事
Google說:2025年,Agent改變一切!