目前想弄一台主機跑調教自己的資料模型
ollama用拿llama3作為底層調教
目前還摸索,由於自己的電腦實在是太爛了
跑起來記憶體直接就被吃爆了
所以想要直接弄一台來當主機來跑跑看
只是語言模型的話,並沒有想要拿來跑圖

想問的是只是單純的把CPU記憶體跟顯卡推高就好了
還是需要注意什麼
比方說
CPU:Ultra 5 245K
記憶體:32gb
顯示卡:RTX5070 16Gb

還是說語言模型其實不需要RTX5070
就算是3060 12Gb 也是可以跑得很順暢了?
阿季 wrote:
目前想弄一台主機跑調...(恕刪)

7B fp16 推理至少要 15G VRAM
用混合精度微調至少兩張 3090 24G
你說不清楚想幹嘛沒法判斷
Ghostwriter wrote:
7B fp16 推理...(恕刪)


謝謝回應
需求主要是想要餵大概1~2千份的文件說明文件進去,方便查詢內容
因為肯定是要反覆測試怎樣的文字結構最有效
所以反覆的餵食是肯定的

目前llama3有8b的版本
ram應該是16Gb以上跑不掉了

反覆的餵食需要大量的時間
預算不可能無效擴大
主要是想知道堆高CPU跟堆高顯卡
哪一邊更有效

依您說的看來是堆高VRAM比較實在
阿季 wrote:
謝謝回應需求主要是想...(恕刪)

這又是另外一個議題
資料清洗是要做 RAG? 還是資料會用來微調模型?
前者比較簡單,後者不好做,沒 3090 以上的顯卡就別搞
至於 RAG 不會用 llama 系列來做這件事
通常是選支援 Embedding 的模型,像是 embed-multilingual-v3.0
然後選 Rank 的模型替預測的結果排序

硬體資源消耗從大排到小是
顯卡 -> 記憶體 = CPU
32G 記憶體偏少,64G 佳

LLM 後端不建議用 llama.cpp、ollama
實際應用會選 vllm、lmdeploy、sglang、trt-llm
Ghostwriter wrote:
這又是另外一個議題資...(恕刪)


非常感謝你
我要好好消化你的這篇建議
對於LLM我了解的還非常淺薄
這些資訊我可以消化一段時間
如果想在gpu省錢的話其實可以考慮看看A770 16g 這一張顯卡
阿季 wrote:
Ghostw...(恕刪)
Ghostwriter
實用性不佳,多卡效能上不去,挺雞肋的一張卡
文章分享
評分
評分
複製連結

今日熱門文章 網友點擊推薦!