目前想弄一台主機跑調教自己的資料模型ollama用拿llama3作為底層調教目前還摸索,由於自己的電腦實在是太爛了跑起來記憶體直接就被吃爆了所以想要直接弄一台來當主機來跑跑看只是語言模型的話,並沒有想要拿來跑圖想問的是只是單純的把CPU記憶體跟顯卡推高就好了還是需要注意什麼比方說CPU:Ultra 5 245K記憶體:32gb顯示卡:RTX5070 16Gb還是說語言模型其實不需要RTX5070就算是3060 12Gb 也是可以跑得很順暢了?
Ghostwriter wrote:7B fp16 推理...(恕刪) 謝謝回應需求主要是想要餵大概1~2千份的文件說明文件進去,方便查詢內容因為肯定是要反覆測試怎樣的文字結構最有效所以反覆的餵食是肯定的目前llama3有8b的版本ram應該是16Gb以上跑不掉了反覆的餵食需要大量的時間預算不可能無效擴大主要是想知道堆高CPU跟堆高顯卡哪一邊更有效依您說的看來是堆高VRAM比較實在
阿季 wrote:謝謝回應需求主要是想...(恕刪) 這又是另外一個議題資料清洗是要做 RAG? 還是資料會用來微調模型?前者比較簡單,後者不好做,沒 3090 以上的顯卡就別搞至於 RAG 不會用 llama 系列來做這件事通常是選支援 Embedding 的模型,像是 embed-multilingual-v3.0然後選 Rank 的模型替預測的結果排序硬體資源消耗從大排到小是顯卡 -> 記憶體 = CPU32G 記憶體偏少,64G 佳LLM 後端不建議用 llama.cpp、ollama實際應用會選 vllm、lmdeploy、sglang、trt-llm