Google Gemini 2.0橫空問世,亮點差異一次看

來討論這次的Google Gemini 2.0最大亮點,其實就是Ai Agent的前瞻應用。

Google Gemini 2.0橫空問世,亮點差異一次看


Google Gemini 2.0橫空問世,亮點差異一次看


那什麼是Ai Agent?它跟主流傳統的生成文本、影片、圖片的ChatGPT又有什麼不同之處?

原本的傳統LLM模型體驗是:

依賴人類用戶輸入一種提示詞,LLM模型透過提示詞內容,直接自行生成長篇文本或圖片、影片,然後就沒了,基本原理就是靠RAG檢索去比對要搬的文本資料來源。(從操作輸入提示詞開始就是完全依賴大量的人工作業、最後輸出結果的正確性與否同樣還是依賴人工自行判斷。)

Google Gemini 2.0橫空問世,亮點差異一次看


但Ai Agent完全不是如此,它可以透過用戶進行的語音轉文字、打字輸入問題的方式,藉此驅動Ai自動化執行一連串的行為操作,過程完全依靠模型自主「推理」、「決策」、「規劃」、「執行」,過程中完全不需要人為干預,模型本身就可以自行「推理」、「決策」、「規劃」、「執行」。



Ai Agent工作原理如下:
感知: 分析當前的棋局對弈內容。(接收棋盤資訊)
推理: 根據檯面上的棋局,預測接下來的棋盤動向與需要注意的部分。(分析局勢、預測對手行動)
決策: 根據推理的結果,選擇最佳的下一步走法。(從多個可能的走法中選擇最佳方案)
規劃: 給出可以讓棋局獲勝的當前建議。(構想一系列的走法,以達到勝利)
執行: 執行上述步驟。(移動棋子)



因為前者完全需要人工手動作業、不斷重複輸入提示詞回答,不會有任何的具體行動,還很需要人類自行判斷決定是否採用LLM生成的內容方案。

由於Ai Agent本身完全不用人工干預過程,Ai就可以自己決定應該要如何採取行動、順利完成目標,因此人類只需要丟問題給模型就可以解放雙手了。

例如說:我跟Ai模型說:「我要出門了!」然後它就會自動推理、決策,自動執行用戶出門的相關的作業流程。(例如:電腦、電視、電燈、電器全部幫我關好。)


不用像傳統的生成式Ai那樣,用戶就是只能傻傻地看語言模型在那邊長篇大論、生成影片、生成圖片,最後還不是要用戶自己去逐一檢查確認、自己逐一去手動關閉。所以未來的工程師是不用坐在電腦前面上班的,基本就會像業務一樣到處趴趴造。

可能就是我今天就坐在自駕車上,全程透過語音下指令,讓代理人遠端代替我處理內勤工作,然後我人是直接去找舊客戶、開發新客戶,當我需要資料的時候,我可以要求代理人幫我傳真、或是上傳到ibon 列印,我人再去超商印出文件檔案來。

Ai Agent才是真的泛用與商用落地、該模型可以有自主判斷、思考行為的模型,至於行為標準都是對標人類專業知識的部分,換句話說,像打遊戲的操作、判斷、攻略破關、網路客服的對話與查詢資料的決策行為,也不用人類玩家中途干預介入,因為這已經不是傳統的LLM模型,凡事都需要透過人類自行評估意見後再決定是否執行。

不過,這邊還有一個重點,市場上討論許久的「邊緣運算」技術,本身就是主要是應用在Ai Agent部份。由於 AI Agent 需要即時處理大量的感測器數據和執行複雜的決策,因此需要在靠近數據源的邊緣設備上進行運算,以減少延遲和提高效率。


那麼Google Gemini 2.0的Ai Agent有什麼具體的應用場景可真正落地、變現?






由於Ai Agent強項就是對標人類的「推理」、「決策」、「規劃」、「執行」能力,所以主要的應用場景,都會集中人機協作上,像我們使用電腦打game、打報告、寫code、製作excel報表.....等,這便是一種最常見的人機協作行為。然而,Ai Agent的強項就是對標人類在這個領域方面。

更具體的應用場景: 除了上述例子,還可以更具體地描述應用場景:



遊戲方面: AI Agent 可以作為遊戲中的智能 NPC,提供更逼真的互動體驗;可以分析玩家的遊戲行為,提供客製化的遊戲建議;甚至可以作為玩家的 AI 隊友,共同完成遊戲任務。例如,Google 展示的 AI 在《部落衝突》中提供兵種建議的例子。

辦公方面: AI Agent 可以協助撰寫報告,例如自動整理資料、生成圖表、檢查語法錯誤;可以協助處理 Excel 報表,例如自動分析數據、預測趨勢;甚至可以協助規劃行程、安排會議等。

程式設計方面: AI Agent 可以協助生成程式碼、除錯、程式碼審查;可以根據自然語言描述自動生成程式碼片段,提高開發效率。例如,Google 展示的 Jules 程式碼 Agent。



瀏覽網頁: AI Agent 可以根據用戶的指令,自動在網頁上執行任務,例如查找特定資訊、填寫表格、比較商品價格。這就像 Google 展示的 Project Mariner 項目。

通用助理: 像 Project Astra 這樣的通用 AI 助手,可以整合各種工具和服務,提供更全面、更個人化的協助。例如,語音翻譯、地圖導航、資訊檢索等。

多模態互動: Gemini 2.0 的一個重要特點是支援多模態輸入輸出,這意味著 AI Agent 可以透過文字、語音、圖像、影片等多種方式與人類互動,提供更自然、更直觀的體驗。例如,使用者可以透過語音指令與 AI Agent 互動,或讓 AI Agent 分析圖片和影片內容。

「代理人工智能」(Agentic AI)的概念: 強調 Gemini 2.0 的 AI Agent 不僅是被動地回答問題,而是能夠理解複雜的上下文,提前規劃多個步驟,並在使用者授權下採取行動。這意味著 AI Agent 可以更主動地協助使用者完成任務,而不僅僅是提供資訊或建議。

與其他技術的結合: 說明 AI Agent 可以與其他技術結合,例如搜尋引擎、地圖服務、程式碼儲存庫等,提供更強大的功能。

那介紹這麼多,目前已經有先行上線的Gemini 2.0 Flash Experimental、網頁代理、程式碼代理,但在台灣目前只有Gemini 2.0 Flash Experimental可以嘗鮮,但限制在網頁版上使用,明年才會下放到Gemini app上,其他皆為實驗版功能,預計未來可能會免費陸續對全球用戶開放使用。

(順便提一個Google官網從沒說到的細節小秘密,Google Gemini Flash系列強項是文字辨識方面,例如:麻將、中國象棋,然後Google Gemini系列強項則是視覺推理方面,例如:圍棋這類物件數量較為龐大、密集的,當然,這也包含手機端辨識現實場景物件及語音對話互動的部分。)

Google Gemini 2.0橫空問世,亮點差異一次看





至於最受注目的即時串流影像對話功能,則是在開發版上免費使用,但目前僅支援英文。


Google Gemini 2.0橫空問世,亮點差異一次看
Google Gemini 2.0橫空問世,亮點差異一次看


串流對話服務,將使用以下積木玩具來做測試。
Google Gemini 2.0橫空問世,亮點差異一次看





關於Google Gemini 2.0 Flash記憶功能:

基本上只要上傳過照片進行對話提問,然後刪除掉原本第一次的對話紀錄,再重新發起第二次的全新對話、再次上傳相同的照片,那麼Google Gemini 2.0就可直接正確識別出來了。

這邊以商用的多功能事務機做為示範:
Google Gemini 2.0橫空問世,亮點差異一次看

Google Gemini 2.0 Flash已經正確識別出來
Google Gemini 2.0橫空問世,亮點差異一次看

答案:
Google Gemini 2.0橫空問世,亮點差異一次看




在YouTube影片的逐字稿表現部分,相比Google Gemini 1.5 Flash已經好上不少,可以在無須提示詞的情況下,直接自動翻譯成中文內容。





至於影像識別的精準度部分?我們就用圍棋影像來進行測試。


先用Gemini 1.5 Pro測試
Google Gemini 2.0橫空問世,亮點差異一次看
結果如下:
Google Gemini 2.0橫空問世,亮點差異一次看

再來,Google Gemini 2.0 Flash 實驗版的結果:

Google Gemini 2.0橫空問世,亮點差異一次看

答案:
Google Gemini 2.0橫空問世,亮點差異一次看

結果很明顯,Gemini Flash模型系列的模型,特徵就是不擅長處理這種高精準度的影像辨識。


再來是實測ARC-AGI (抽象推理)題目
Google Gemini 2.0橫空問世,亮點差異一次看
Google Gemini 2.0橫空問世,亮點差異一次看

正確答案:
Google Gemini 2.0橫空問世,亮點差異一次看

影片:



再加碼實測Google Gemini 2.0 flash thinking在圍棋方面的推理能力。

圍棋題目:
Google Gemini 2.0橫空問世,亮點差異一次看

Google Gemini 2.0 flash thinking回答:
Google Gemini 2.0橫空問世,亮點差異一次看



前面提到關於「推理」、「決策」、「規劃」能力的具體標準是什麼,這邊簡單的解釋一下:

要知道一個AI模型是否同時具備這三種條件,最簡單的方式就是拿中國象棋、井字遊戲、寶可夢卡牌手遊的截圖畫面 + 問題(不是用提示詞引導AI模型回答用戶心中所期望的正確答案。)去測試,來藉此判斷缺認這個AI模型能否能同時滿足「推理」、「決策」、「規劃」三種能力。


這裡以井字遊戲、寶可夢卡牌手機遊戲、評估企業預算編列、極限數獨3x3的部分實測Google Gemini 2.0 Flash實驗版的「推理」、「決策」、「規劃」能力:

井字遊戲:

Google Gemini 2.0橫空問世,亮點差異一次看


輸出結果:

Google Gemini 2.0橫空問世,亮點差異一次看



遊戲截圖:


Google Gemini 2.0橫空問世,亮點差異一次看



問題:


Google Gemini 2.0橫空問世,亮點差異一次看



分析寶可夢卡牌對戰局勢

**免責聲明:** 鑑於圖片資訊有限,以下分析僅根據可見資訊進行推測,實際對戰情況可能因未顯示的卡牌、雙方玩家的策略和運氣而有所不同。

場上局勢分析

* **你的牌組:**
* **優勢:** 火系能量充足,焰後蜥、火恐龍、烈焰馬皆為火系寶可夢,可發揮出強大火力。拉達具有較高的HP,可作為抵擋攻擊的肉盾。
* **劣勢:** 前排的焰後蜥HP較低,容易被對手擊倒。後排寶可夢雖然攻擊力強,但需要消耗較多能量。

* **對手的牌組:**
* **優勢:** 拉派斯特擁有高HP和多種攻擊方式,是對手的主要火力來源。妙蛙種子具備草系攻擊,可以克制火系寶可夢。
* **劣勢:** 坐騎小羊和坐騎山羊的HP較低,容易被快速擊倒。

雙方玩家可能的策略

* **你:**
* **短期目標:** 盡快擊倒對手的坐騎小羊和坐騎山羊,削弱對手的防守能力。
* **長期目標:** 利用火系能量集中攻擊拉派斯特,同時保護後排寶可夢。
* **可能使用的卡牌:** 火系能量、火系攻擊招式、寶可夢交換等。

* **對手:**
* **短期目標:** 利用拉派斯特的攻擊,快速擊倒你的焰後蜥,造成壓力。
* **長期目標:** 等待機會使用妙蛙種子的草系攻擊,克制你的火系寶可夢。
* **可能使用的卡牌:** 無色能量、草系攻擊招式、撤退工具等。

對戰走向預測

* **接下來幾回合:** 你可能會先用火恐龍或烈焰馬攻擊坐騎小羊或坐騎山羊,削弱對手的防守。對手則可能繼續用拉派斯特攻擊你的焰後蜥,同時尋找機會使用妙蛙種子的攻擊。
* **最終勝負:** 勝負的關鍵在於雙方玩家的卡牌抽取、能量管理和策略運用。如果你能有效地擊倒對手的後排寶可夢,並保護好自己的主要攻擊手,那麼獲勝的可能性會更高。反之,如果對手能成功地拖延時間,並找到機會使用妙蛙種子的克制攻擊,那麼勝負可能就會逆轉。

作為你的對策

1. **集中火力攻擊坐騎小羊和坐騎山羊:** 盡快解決這些HP較低的寶可夢,減少對手的防守壓力。
2. **保護焰後蜥:** 考慮使用寶可夢交換或其他方式,將焰後蜥換下場,避免被對手集火攻擊。
3. **合理分配能量:** 不要將所有的能量都集中在一個寶可夢身上,以免被對手一擊打倒。
4. **留意對手的卡牌:** 注意對手抽取的卡牌和使用的招式,提前預測對手的行動。
5. **靈活應變:** 寶可夢對戰充滿變數,要根據實際情況調整自己的策略。

**總結:**

這場對戰的勝負充滿了未知性。雙方玩家都擁有各自的優勢和劣勢,最終的勝利者將取決於雙方玩家的策略和運氣。作為你,應該根據對手的行動,靈活調整自己的策略,爭取獲得最終的勝利。

**請注意:** 這只是一種可能的對戰走向,實際情況可能會有很大的不同。如果你能提供更多的資訊,例如雙方玩家的牌組構成、棄牌區的卡牌等,我就能更準確地分析這場對戰。

**想要獲取更詳細的分析,建議你查閱寶可夢集換式卡牌遊戲的官方規則和相關攻略。**

**希望這些分析能對你有所幫助!**

**是否想繼續模擬對戰,或是針對某個特定情況進行分析?**

**你可以提供以下資訊:**
* 雙方玩家的牌組列表(如果可以的話)
* 棄牌區的卡牌
* 你想針對哪個特定的情況進行分析(例如:對手使用妙蛙種子的攻擊時,我該如何應對?)

我也能提供一些關於寶可夢卡牌遊戲的基礎知識和常見策略,幫助你更好地理解這項遊戲。


評估企業預算編列:
Google Gemini 2.0橫空問世,亮點差異一次看


難度最大的3x3數獨:
Google Gemini 2.0橫空問世,亮點差異一次看

Google Gemini 2.o Flash的回答:
Google Gemini 2.0橫空問世,亮點差異一次看

正確答案:
Google Gemini 2.0橫空問世,亮點差異一次看


解決職場上的工作流程問題:
Google Gemini 2.0橫空問世,亮點差異一次看
Google Gemini 2.0橫空問世,亮點差異一次看
Google Gemini 2.0橫空問世,亮點差異一次看
Google Gemini 2.0橫空問世,亮點差異一次看
Google Gemini 2.0橫空問世,亮點差異一次看
Google Gemini 2.0橫空問世,亮點差異一次看
Google Gemini 2.0橫空問世,亮點差異一次看

Google搜尋+記事本的代理任務
Google Gemini 2.0橫空問世,亮點差異一次看

Google地圖+Google日曆的代理任務
Google Gemini 2.0橫空問世,亮點差異一次看


Google 搜尋 + Google keep、Google日曆+Google Map代理任務

-------------------------------------------
Google Gemini 2.0 Flash Thinking免費登場!
Google Gemini 2.0橫空問世,亮點差異一次看

直接實測我工作上遇到的問題:
Google Gemini 2.0橫空問世,亮點差異一次看
Google Gemini 2.0橫空問世,亮點差異一次看

本次測試使用的題目:
Google Gemini 2.0橫空問世,亮點差異一次看




延伸閱讀:
「Ai推理」的標準定義是什麼?
AI是否真的會搶走人類的工作?(這篇有實際使用中的職場案例可以解惑)
集結當前四種Ai技術最強夢幻組合

相關閱讀:
Google Gemini 1.5 Pro 深度研究工具 Deep Research 發表
邁向 Gemini 2.0!Gemini 2.0 Flash 新模型登場,為 AI 代理設計
Google Gemini 2.0 登場:原生圖像、音訊輸出,現已開放預覽
Google公布名為Project Mariner的人工智慧助理服務,可分析螢幕畫面、接手功能操作
Google公布Gemini 2.0 推出3種代理人
隆重推出 Gemini 2.0:我們迎向代理式 AI 時代的新模型
Google Cloud 推出 Google Agentspace 和 NotebookLM Plus 助力提升企業生產力
Android XR改用Hey Gemini啟動操作 Project Moohan部分設計曝光
科技巨頭競相推出的AI代理 (AI Agents) 是什麼,與現在的AI聊天機器人有何不同?
AI代理2025年即將推出 排行程、架網站、寫教案都能直接幫你做到好?
AI是萬能的?專家指「大眾過度期待」:AI只能做人類專家會的事
Google說:2025年,Agent改變一切!
最低的果實已經摘完
最近這一兩日發生臉書 IG Chatgpt "又" 接連大當機
還是google的穩穩用比較讚
你好:目前AI大行其道,可以省下不少的人力,對於企業優先導入AI很有必要,特別是當前少子化,企業的瘦身已經刻不容緩了。

而且剛剛我試了最先進的具有推論功能的AI,已經可以把我大學時期課本後面的習題答案給算出來咯,既然知識已經可以靠AI生成,那麼課本的編排應響應AI做出修正,在AI之上建立架構,把唾手可得的AI作為基礎知識
CONA24
可以預見未來的世代AI工具就像現在的卡西歐計算機一樣普及[讚]
劍心san
CONA24 YES,尤其是AI Agent的應用,會直接精簡更多人力需求,因為很多企業期待很久了,那強大的程度表現,跟現在最多人使用的ChatGPT可是完全不同的AI工具。
劍心san wrote:來討論這次的Google...(恕刪)

雖然不想潑冷水
但 Google 依然在講形而上的東西
幸好 Claude 搞砸了,OpenAI 拿出冷飯在炒
X 仍在急速追趕中

O1, Gemini 2.0 甚麼的看看就好 (O1貴爆還比 O1-Preview差,到底怎麼搞的)
Agent AI 用這些模型的費用會貴到爆炸
啥時候 SLM 變成穩定可用才是 Agent AI 真正興盛的時期
現在 LLM 每推出應對某方面的優勢的新模型,總是有另一方面被搞砸
真是夠了


想簡單玩玩 Agent 倒是有個方案可行,也不需要模型御三家
Dify -> Workflow {SLM (html to md) + SLM (format & summerize)}
對於想快速摘要與關於文本的延伸應用是個不錯的起手
(LangChain=Garbage)
劍心san
[100分]
希望2.0不會再動不動叫我
自己去看官網資料
或是一直叫我訂閱進階版
畫圖也是被對手吊打
但還是
期待Gemini的成長
人腦 + 電腦 才是 王道,
把 人腦 數位化(永生).
劍心san
那就要看腦機介面什麼時候可以被接受
前兩天更新就看到想說被入侵
後來看到是Google出品的
劍心san
入侵!?(驚
本週更新的代理用法:

Google搜尋+記事本的代理任務


Google地圖+Google日曆的代理任務



Google 搜尋 + Google keep、Google日曆+Google Map代理任務
一流人專做開源未來事,二流人專做停滯不前淘汰事,三流人只做問題進行事,四流人只做同溫取暖裝傻事。
劍心san wrote:
來討論這次的Google...(恕刪)
好像很先進,很多人都說以後不會人工智慧會被淘汰。
劍心san
那是因為他們本來就不會把AI導入在職場工作流程上的說法。
關閉廣告
文章分享
評分
評分
複製連結

今日熱門文章 網友點擊推薦!