劍心san

4305分

樓主

劍心san

個人積分：4305分

文章編號：90789452

Google Gemini 2.0橫空問世，亮點差異一次看

來討論這次的Google Gemini 2.0最大亮點，其實就是Ai Agent的前瞻應用。

Google Gemini 2.0橫空問世，亮點差異一次看

那什麼是Ai Agent？它跟主流傳統的生成文本、影片、圖片的ChatGPT又有什麼不同之處？

原本的傳統LLM模型體驗是：

依賴人類用戶輸入一種提示詞，LLM模型透過提示詞內容，直接自行生成長篇文本或圖片、影片，然後就沒了，基本原理就是靠RAG檢索去比對要搬的文本資料來源。（從操作輸入提示詞開始就是完全依賴大量的人工作業、最後輸出結果的正確性與否同樣還是依賴人工自行判斷。）

Google Gemini 2.0橫空問世，亮點差異一次看

但Ai Agent完全不是如此，它可以透過用戶進行的語音轉文字、打字輸入問題的方式，藉此驅動Ai自動化執行一連串的行為操作，過程完全依靠模型自主「推理」、「決策」、「規劃」、「執行」，過程中完全不需要人為干預，模型本身就可以自行「推理」、「決策」、「規劃」、「執行」。

Ai Agent工作原理如下：
感知：分析當前的棋局對弈內容。（接收棋盤資訊）
推理：根據檯面上的棋局，預測接下來的棋盤動向與需要注意的部分。（分析局勢、預測對手行動）
決策：根據推理的結果，選擇最佳的下一步走法。（從多個可能的走法中選擇最佳方案）
規劃：給出可以讓棋局獲勝的當前建議。（構想一系列的走法，以達到勝利）
執行：執行上述步驟。（移動棋子）

因為前者完全需要人工手動作業、不斷重複輸入提示詞回答，不會有任何的具體行動，還很需要人類自行判斷決定是否採用LLM生成的內容方案。

由於Ai Agent本身完全不用人工干預過程，Ai就可以自己決定應該要如何採取行動、順利完成目標，因此人類只需要丟問題給模型就可以解放雙手了。

例如說：我跟Ai模型說：「我要出門了！」然後它就會自動推理、決策，自動執行用戶出門的相關的作業流程。（例如：電腦、電視、電燈、電器全部幫我關好。）

不用像傳統的生成式Ai那樣，用戶就是只能傻傻地看語言模型在那邊長篇大論、生成影片、生成圖片，最後還不是要用戶自己去逐一檢查確認、自己逐一去手動關閉。所以未來的工程師是不用坐在電腦前面上班的，基本就會像業務一樣到處趴趴造。

可能就是我今天就坐在自駕車上，全程透過語音下指令，讓代理人遠端代替我處理內勤工作，然後我人是直接去找舊客戶、開發新客戶，當我需要資料的時候，我可以要求代理人幫我傳真、或是上傳到ibon 列印，我人再去超商印出文件檔案來。

Ai Agent才是真的泛用與商用落地、該模型可以有自主判斷、思考行為的模型，至於行為標準都是對標人類專業知識的部分，換句話說，像打遊戲的操作、判斷、攻略破關、網路客服的對話與查詢資料的決策行為，也不用人類玩家中途干預介入，因為這已經不是傳統的LLM模型，凡事都需要透過人類自行評估意見後再決定是否執行。

不過，這邊還有一個重點，市場上討論許久的「邊緣運算」技術，本身就是主要是應用在Ai Agent部份。由於 AI Agent 需要即時處理大量的感測器數據和執行複雜的決策，因此需要在靠近數據源的邊緣設備上進行運算，以減少延遲和提高效率。

那麼Google Gemini 2.0的Ai Agent有什麼具體的應用場景可真正落地、變現？

由於Ai Agent強項就是對標人類的「推理」、「決策」、「規劃」、「執行」能力，所以主要的應用場景，都會集中人機協作上，像我們使用電腦打game、打報告、寫code、製作excel報表.....等，這便是一種最常見的人機協作行為。然而，Ai Agent的強項就是對標人類在這個領域方面。

更具體的應用場景：除了上述例子，還可以更具體地描述應用場景：

遊戲方面： AI Agent 可以作為遊戲中的智能 NPC，提供更逼真的互動體驗；可以分析玩家的遊戲行為，提供客製化的遊戲建議；甚至可以作為玩家的 AI 隊友，共同完成遊戲任務。例如，Google 展示的 AI 在《部落衝突》中提供兵種建議的例子。

辦公方面： AI Agent 可以協助撰寫報告，例如自動整理資料、生成圖表、檢查語法錯誤；可以協助處理 Excel 報表，例如自動分析數據、預測趨勢；甚至可以協助規劃行程、安排會議等。

程式設計方面： AI Agent 可以協助生成程式碼、除錯、程式碼審查；可以根據自然語言描述自動生成程式碼片段，提高開發效率。例如，Google 展示的 Jules 程式碼 Agent。

瀏覽網頁： AI Agent 可以根據用戶的指令，自動在網頁上執行任務，例如查找特定資訊、填寫表格、比較商品價格。這就像 Google 展示的 Project Mariner 項目。

通用助理：像 Project Astra 這樣的通用 AI 助手，可以整合各種工具和服務，提供更全面、更個人化的協助。例如，語音翻譯、地圖導航、資訊檢索等。

多模態互動： Gemini 2.0 的一個重要特點是支援多模態輸入輸出，這意味著 AI Agent 可以透過文字、語音、圖像、影片等多種方式與人類互動，提供更自然、更直觀的體驗。例如，使用者可以透過語音指令與 AI Agent 互動，或讓 AI Agent 分析圖片和影片內容。

「代理人工智能」（Agentic AI）的概念：強調 Gemini 2.0 的 AI Agent 不僅是被動地回答問題，而是能夠理解複雜的上下文，提前規劃多個步驟，並在使用者授權下採取行動。這意味著 AI Agent 可以更主動地協助使用者完成任務，而不僅僅是提供資訊或建議。

與其他技術的結合：說明 AI Agent 可以與其他技術結合，例如搜尋引擎、地圖服務、程式碼儲存庫等，提供更強大的功能。

那介紹這麼多，目前已經有先行上線的Gemini 2.0 Flash Experimental、網頁代理、程式碼代理，但在台灣目前只有Gemini 2.0 Flash Experimental可以嘗鮮，但限制在網頁版上使用，明年才會下放到Gemini app上，其他皆為實驗版功能，預計未來可能會免費陸續對全球用戶開放使用。

（順便提一個Google官網從沒說到的細節小秘密，Google Gemini Flash系列強項是文字辨識方面，例如：麻將、中國象棋，然後Google Gemini系列強項則是視覺推理方面，例如：圍棋這類物件數量較為龐大、密集的，當然，這也包含手機端辨識現實場景物件及語音對話互動的部分。）

Google Gemini 2.0橫空問世，亮點差異一次看

至於最受注目的即時串流影像對話功能，則是在開發版上免費使用，但目前僅支援英文。

Google Gemini 2.0橫空問世，亮點差異一次看

串流對話服務，將使用以下積木玩具來做測試。
Google Gemini 2.0橫空問世，亮點差異一次看

關於Google Gemini 2.0 Flash記憶功能：

基本上只要上傳過照片進行對話提問，然後刪除掉原本第一次的對話紀錄，再重新發起第二次的全新對話、再次上傳相同的照片，那麼Google Gemini 2.0就可直接正確識別出來了。

這邊以商用的多功能事務機做為示範：
Google Gemini 2.0橫空問世，亮點差異一次看

Google Gemini 2.0 Flash已經正確識別出來
Google Gemini 2.0橫空問世，亮點差異一次看

答案：

在YouTube影片的逐字稿表現部分，相比Google Gemini 1.5 Flash已經好上不少，可以在無須提示詞的情況下，直接自動翻譯成中文內容。

至於影像識別的精準度部分？我們就用圍棋影像來進行測試。

先用Gemini 1.5 Pro測試
Google Gemini 2.0橫空問世，亮點差異一次看

結果如下：

再來，Google Gemini 2.0 Flash 實驗版的結果：

Google Gemini 2.0橫空問世，亮點差異一次看

答案：

結果很明顯，Gemini Flash模型系列的模型，特徵就是不擅長處理這種高精準度的影像辨識。

再來是實測ARC-AGI （抽象推理）題目
Google Gemini 2.0橫空問世，亮點差異一次看

正確答案：

影片：

再加碼實測Google Gemini 2.0 flash thinking在圍棋方面的推理能力。

圍棋題目：
Google Gemini 2.0橫空問世，亮點差異一次看

Google Gemini 2.0 flash thinking回答：
Google Gemini 2.0橫空問世，亮點差異一次看

前面提到關於「推理」、「決策」、「規劃」能力的具體標準是什麼，這邊簡單的解釋一下：

要知道一個AI模型是否同時具備這三種條件，最簡單的方式就是拿中國象棋、井字遊戲、寶可夢卡牌手遊的截圖畫面 + 問題(不是用提示詞引導AI模型回答用戶心中所期望的正確答案。)去測試，來藉此判斷缺認這個AI模型能否能同時滿足「推理」、「決策」、「規劃」三種能力。

這裡以井字遊戲、寶可夢卡牌手機遊戲、評估企業預算編列、極限數獨3x3的部分實測Google Gemini 2.0 Flash實驗版的「推理」、「決策」、「規劃」能力：

井字遊戲：

Google Gemini 2.0橫空問世，亮點差異一次看

輸出結果：

遊戲截圖：

問題：

分析寶可夢卡牌對戰局勢

**免責聲明：** 鑑於圖片資訊有限，以下分析僅根據可見資訊進行推測，實際對戰情況可能因未顯示的卡牌、雙方玩家的策略和運氣而有所不同。

場上局勢分析

* **你的牌組：**
* **優勢：** 火系能量充足，焰後蜥、火恐龍、烈焰馬皆為火系寶可夢，可發揮出強大火力。拉達具有較高的HP，可作為抵擋攻擊的肉盾。
* **劣勢：** 前排的焰後蜥HP較低，容易被對手擊倒。後排寶可夢雖然攻擊力強，但需要消耗較多能量。

* **對手的牌組：**
* **優勢：** 拉派斯特擁有高HP和多種攻擊方式，是對手的主要火力來源。妙蛙種子具備草系攻擊，可以克制火系寶可夢。
* **劣勢：** 坐騎小羊和坐騎山羊的HP較低，容易被快速擊倒。

雙方玩家可能的策略

* **你：**
* **短期目標：** 盡快擊倒對手的坐騎小羊和坐騎山羊，削弱對手的防守能力。
* **長期目標：** 利用火系能量集中攻擊拉派斯特，同時保護後排寶可夢。
* **可能使用的卡牌：** 火系能量、火系攻擊招式、寶可夢交換等。

* **對手：**
* **短期目標：** 利用拉派斯特的攻擊，快速擊倒你的焰後蜥，造成壓力。
* **長期目標：** 等待機會使用妙蛙種子的草系攻擊，克制你的火系寶可夢。
* **可能使用的卡牌：** 無色能量、草系攻擊招式、撤退工具等。

對戰走向預測

* **接下來幾回合：** 你可能會先用火恐龍或烈焰馬攻擊坐騎小羊或坐騎山羊，削弱對手的防守。對手則可能繼續用拉派斯特攻擊你的焰後蜥，同時尋找機會使用妙蛙種子的攻擊。
* **最終勝負：** 勝負的關鍵在於雙方玩家的卡牌抽取、能量管理和策略運用。如果你能有效地擊倒對手的後排寶可夢，並保護好自己的主要攻擊手，那麼獲勝的可能性會更高。反之，如果對手能成功地拖延時間，並找到機會使用妙蛙種子的克制攻擊，那麼勝負可能就會逆轉。

作為你的對策

1. **集中火力攻擊坐騎小羊和坐騎山羊：** 盡快解決這些HP較低的寶可夢，減少對手的防守壓力。
2. **保護焰後蜥：** 考慮使用寶可夢交換或其他方式，將焰後蜥換下場，避免被對手集火攻擊。
3. **合理分配能量：** 不要將所有的能量都集中在一個寶可夢身上，以免被對手一擊打倒。
4. **留意對手的卡牌：** 注意對手抽取的卡牌和使用的招式，提前預測對手的行動。
5. **靈活應變：** 寶可夢對戰充滿變數，要根據實際情況調整自己的策略。

**總結：**

這場對戰的勝負充滿了未知性。雙方玩家都擁有各自的優勢和劣勢，最終的勝利者將取決於雙方玩家的策略和運氣。作為你，應該根據對手的行動，靈活調整自己的策略，爭取獲得最終的勝利。

**請注意：** 這只是一種可能的對戰走向，實際情況可能會有很大的不同。如果你能提供更多的資訊，例如雙方玩家的牌組構成、棄牌區的卡牌等，我就能更準確地分析這場對戰。

**想要獲取更詳細的分析，建議你查閱寶可夢集換式卡牌遊戲的官方規則和相關攻略。**

**希望這些分析能對你有所幫助！**

**是否想繼續模擬對戰，或是針對某個特定情況進行分析？**

**你可以提供以下資訊：**
* 雙方玩家的牌組列表（如果可以的話）
* 棄牌區的卡牌
* 你想針對哪個特定的情況進行分析（例如：對手使用妙蛙種子的攻擊時，我該如何應對？）

我也能提供一些關於寶可夢卡牌遊戲的基礎知識和常見策略，幫助你更好地理解這項遊戲。

評估企業預算編列：
Google Gemini 2.0橫空問世，亮點差異一次看

難度最大的3x3數獨：
Google Gemini 2.0橫空問世，亮點差異一次看

Google Gemini 2.o Flash的回答：
Google Gemini 2.0橫空問世，亮點差異一次看

正確答案：

解決職場上的工作流程問題：
Google Gemini 2.0橫空問世，亮點差異一次看

Google搜尋+記事本的代理任務
Google Gemini 2.0橫空問世，亮點差異一次看

Google地圖+Google日曆的代理任務
Google Gemini 2.0橫空問世，亮點差異一次看

Google 搜尋 + Google keep、Google日曆+Google Map代理任務

-------------------------------------------
Google Gemini 2.0 Flash Thinking免費登場！
Google Gemini 2.0橫空問世，亮點差異一次看

直接實測我工作上遇到的問題：
Google Gemini 2.0橫空問世，亮點差異一次看

本次測試使用的題目：
Google Gemini 2.0橫空問世，亮點差異一次看

延伸閱讀：
「Ai推理」的標準定義是什麼？
AI是否真的會搶走人類的工作？(這篇有實際使用中的職場案例可以解惑)
集結當前四種Ai技術最強夢幻組合

相關閱讀：
Google Gemini 1.5 Pro 深度研究工具 Deep Research 發表
邁向 Gemini 2.0！Gemini 2.0 Flash 新模型登場，為 AI 代理設計
Google Gemini 2.0 登場：原生圖像、音訊輸出，現已開放預覽
Google公布名為Project Mariner的人工智慧助理服務，可分析螢幕畫面、接手功能操作
Google公布Gemini 2.0 推出3種代理人
隆重推出 Gemini 2.0：我們迎向代理式 AI 時代的新模型
Google Cloud 推出 Google Agentspace 和 NotebookLM Plus 助力提升企業生產力
Android XR改用Hey Gemini啟動操作 Project Moohan部分設計曝光
科技巨頭競相推出的AI代理 (AI Agents) 是什麼，與現在的AI聊天機器人有何不同？
AI代理2025年即將推出　排行程、架網站、寫教案都能直接幫你做到好？
AI是萬能的？專家指「大眾過度期待」：AI只能做人類專家會的事
Google說：2025年，Agent改變一切！

2024-12-12 12:54 #1

文章關鍵字

奇點降臨

1114分

2樓

奇點降臨

個人積分：1114分

文章編號：90791455

最低的果實已經摘完

YES

2024-12-12 18:29

騎嬰兒車甩尾

2589分

3樓

騎嬰兒車甩尾

個人積分：2589分

文章編號：90791713

最近這一兩日發生臉書 IG Chatgpt "又" 接連大當機
還是google的穩穩用比較讚 ^++^

CONA24

3737分

4樓

CONA24

個人積分：3737分

文章編號：90791887

你好：目前AI大行其道，可以省下不少的人力，對於企業優先導入AI很有必要，特別是當前少子化，企業的瘦身已經刻不容緩了。真心不騙

而且剛剛我試了最先進的具有推論功能的AI，已經可以把我大學時期課本後面的習題答案給算出來咯，既然知識已經可以靠AI生成，那麼課本的編排應響應AI做出修正，在AI之上建立架構，把唾手可得的AI作為基礎知識拇指向上

CONA24

可以預見未來的世代AI工具就像現在的卡西歐計算機一樣普及[讚]

2024-12-12 19:35

CONA24 YES，尤其是AI Agent的應用，會直接精簡更多人力需求，因為很多企業期待很久了，那強大的程度表現，跟現在最多人使用的ChatGPT可是完全不同的AI工具。

2024-12-12 19:42

Ghostwriter

2016分

5樓

Ghostwriter

個人積分：2016分

文章編號：90792070

劍心san wrote:來討論這次的Google...(恕刪)

雖然不想潑冷水
但 Google 依然在講形而上的東西
幸好 Claude 搞砸了，OpenAI 拿出冷飯在炒
X 仍在急速追趕中

O1, Gemini 2.0 甚麼的看看就好 (O1貴爆還比 O1-Preview差，到底怎麼搞的)
Agent AI 用這些模型的費用會貴到爆炸
啥時候 SLM 變成穩定可用才是 Agent AI 真正興盛的時期
現在 LLM 每推出應對某方面的優勢的新模型，總是有另一方面被搞砸
真是夠了

想簡單玩玩 Agent 倒是有個方案可行，也不需要模型御三家
Dify -> Workflow {SLM (html to md) + SLM (format & summerize)}
對於想快速摘要與關於文本的延伸應用是個不錯的起手