業務介紹
Xinference 是一個開源的大模型部署和管理工具,主要用于簡化各種開源大語言模型(LLM)、多模態模型的本地化部署、調用和管理流程。它的核心目標是讓用戶能夠更便捷地在本地或私有環境中運行和使用各類預訓練模型,而無需依賴外部 API 服務。
主要特點:
多模型支持:兼容多種主流開源模型,包括 LLaMA 系列、ChatGLM、Mistral、Qwen(通義千問)、Stable Diffusion 等,覆蓋文本生成、圖像生成等多模態任務。
靈活部署:支持不同硬件環境(CPU、GPU),并能根據硬件配置自動適配模型參數(如量化精度),降低部署門檻。
統一接口:提供標準化的 API(兼容 OpenAI 格式),方便用戶通過統一的方式調用不同模型,簡化代碼遷移和集成。
分布式能力:支持模型的分布式部署,可利用多設備資源提升大模型的運行效率。
輕量易用:通過命令行或 API 即可快速啟動和管理模型,無需復雜的配置,適合開發者快速上手。
適用場景:
本地開發和測試開源大模型
搭建私有大模型服務,保障數據隱私
快速對比不同模型的性能和效果
集成到應用中實現本地化的 AI 功能
如果需要在本地部署和管理開源大模型,Xinference 是一個高效的工具選擇,尤其適合對隱私性、自定義部署有需求的場景。
啟動應用
C:\Users\Administrator>xinference-local2025-03-10 00:22:00,214 xinference.core.supervisor 56180 INFO Xinference supervisor 127.0.0.1:61734 started 2025-03-10 00:22:00,233 xinference.core.worker 56180 INFO Starting metrics export server at 127.0.0.1:None 2025-03-10 00:22:00,235 xinference.core.worker 56180 INFO Checking metrics export server... 2025-03-10 00:22:07,762 xinference.core.worker 56180 INFO Metrics server is started at: http://127.0.0.1:39629 2025-03-10 00:22:07,762 xinference.core.worker 56180 INFO Purge cache directory: C:\Users\Administrator\.xinference\cache 2025-03-10 00:22:07,763 xinference.core.worker 56180 INFO Connected to supervisor as a fresh worker 2025-03-10 00:22:07,772 xinference.core.worker 56180 INFO Xinference worker 127.0.0.1:61734 started 2025-03-10 00:22:13,085 xinference.api.restful_api 34544 INFO Starting Xinference at endpoint: http://127.0.0.1:9997 2025-03-10 00:22:13,181 uvicorn.error 34544 INFO Uvicorn running on http://127.0.0.1:9997 (Press CTRL+C to quit)
以下是 Windows 系統修改 Xinference 下載路徑的具體方法
一、通過環境變量修改 臨時設置(單次生效) 在啟動 Xinference 服務前,使用命令提示符執行以下命令(替換目標路徑): bashCopy Code set XINFERENCE_HOME=D:\your_custom_path xinference-local --host 0.0.0.0 --port 9997 此方式僅對當前會話生效25。 永久設置(全局生效) 右鍵點擊“此電腦” → 選擇“屬性” → 進入“高級系統設置” → 點擊“環境變量” 在“系統變量”中新建變量: textCopy Code 變量名:XINFERENCE_HOME 變量值:D:\your_custom_path 重啟命令行工具后啟動服務即可生效24。 二、通過符號鏈接重定向 若需保留默認路徑但實際存儲到其他位置: 在目標盤(如 D 盤)創建自定義文件夾(如 D:\xinference_cache) 以管理員權限打開命令提示符,執行: bashCopy Code mklink /j "C:\Users\用戶名\.xinference\cache" "D:\xinference_cache" 此方法通過軟鏈接將默認路徑映射到自定義目錄,避免修改環境變量。 注意事項 確保目標路徑存在且具有讀寫權限23 修改環境變量后需重啟命令行工具或系統才能生效4 若同時存在 XINFERENCE_HOME 和 XINFERENCE_CACHE_DIR 變量,優先采用 XINFERENCE_HOME 的配置12 啟動服務時需使用 xinference-local 命令而非直接運行腳本
下載模型
Downloading Model to directory: C:\Users\Administrator\.cache\modelscope\hub\models\qwen\Qwen2.5-1.5B-Instruct 2025-03-10 00:43:53,527 - modelscope - INFO - Got 10 files, start to download ... Downloading [config.json]: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 660/660 [00:00<00:00, 1.95kB/s] Downloading [README.md]: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4.80k/4.80k [00:00<00:00, 14.0kB/s] Downloading [LICENSE]: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 11.1k/11.1k [00:00<00:00, 26.3kB/s] Downloading [configuration.json]: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2.00/2.00 [00:00<00:00, 4.45B/s] Downloading [generation_config.json]: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 242/242 [00:00<00:00, 464B/s] Downloading [tokenizer_config.json]: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7.13k/7.13k [00:00<00:00, 11.4kB/s]
自動選擇 vLLM 的條件
模型格式為 pytorch、gptq 或 awq。
當模型格式為
pytorch時,量化選項需為none。當模型格式為
awq時,量化選項需為Int4。當模型格式為
gptq時,量化選項需為Int3、Int4或Int8。
操作系統為 Linux,并且至少有一個支持 CUDA 的設備。
自定義模型的 model_family 字段和內置模型的 model_name 字段在 vLLM 的支持列表中。
本文為張軍原創文章,轉載無需和我聯系,但請注明來自張軍的軍軍小站,個人博客http://m.dlhighland.cn
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061
微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元

