黄色网页视频 I 影音先锋日日狠狠久久 I 秋霞午夜毛片 I 秋霞一二三区 I 国产成人片无码视频 I 国产 精品 自在自线 I av免费观看网站 I 日本精品久久久久中文字幕5 I 91看视频 I 看全色黄大色黄女片18 I 精品不卡一区 I 亚洲最新精品 I 欧美 激情 在线 I 人妻少妇精品久久 I 国产99视频精品免费专区 I 欧美影院 I 欧美精品在欧美一区二区少妇 I av大片网站 I 国产精品黄色片 I 888久久 I 狠狠干最新 I 看看黄色一级片 I 黄色精品久久 I 三级av在线 I 69色综合 I 国产日韩欧美91 I 亚洲精品偷拍 I 激情小说亚洲图片 I 久久国产视频精品 I 国产综合精品一区二区三区 I 色婷婷国产 I 最新成人av在线 I 国产私拍精品 I 日韩成人影音 I 日日夜夜天天综合

xinference部署安裝

張軍 26 0


業務介紹

Xinference 是一個開源的大模型部署和管理工具,主要用于簡化各種開源大語言模型(LLM)、多模態模型的本地化部署、調用和管理流程。它的核心目標是讓用戶能夠更便捷地在本地或私有環境中運行和使用各類預訓練模型,而無需依賴外部 API 服務。

主要特點:

  1. 多模型支持:兼容多種主流開源模型,包括 LLaMA 系列、ChatGLM、Mistral、Qwen(通義千問)、Stable Diffusion 等,覆蓋文本生成、圖像生成等多模態任務。

  2. 靈活部署:支持不同硬件環境(CPU、GPU),并能根據硬件配置自動適配模型參數(如量化精度),降低部署門檻。

  3. 統一接口:提供標準化的 API(兼容 OpenAI 格式),方便用戶通過統一的方式調用不同模型,簡化代碼遷移和集成。

  4. 分布式能力:支持模型的分布式部署,可利用多設備資源提升大模型的運行效率。

  5. 輕量易用:通過命令行或 API 即可快速啟動和管理模型,無需復雜的配置,適合開發者快速上手。

適用場景:

  1. 本地開發和測試開源大模型

  2. 搭建私有大模型服務,保障數據隱私

  3. 快速對比不同模型的性能和效果

  4. 集成到應用中實現本地化的 AI 功能

如果需要在本地部署和管理開源大模型,Xinference 是一個高效的工具選擇,尤其適合對隱私性、自定義部署有需求的場景。

啟動應用

C:\Users\Administrator>xinference-local2025-03-10 00:22:00,214 xinference.core.supervisor 56180 INFO     Xinference supervisor 127.0.0.1:61734 started
2025-03-10 00:22:00,233 xinference.core.worker 56180 INFO     Starting metrics export server at 127.0.0.1:None
2025-03-10 00:22:00,235 xinference.core.worker 56180 INFO     Checking metrics export server...
2025-03-10 00:22:07,762 xinference.core.worker 56180 INFO     Metrics server is started at: http://127.0.0.1:39629
2025-03-10 00:22:07,762 xinference.core.worker 56180 INFO     Purge cache directory: C:\Users\Administrator\.xinference\cache
2025-03-10 00:22:07,763 xinference.core.worker 56180 INFO     Connected to supervisor as a fresh worker
2025-03-10 00:22:07,772 xinference.core.worker 56180 INFO     Xinference worker 127.0.0.1:61734 started
2025-03-10 00:22:13,085 xinference.api.restful_api 34544 INFO     Starting Xinference at endpoint: http://127.0.0.1:9997
2025-03-10 00:22:13,181 uvicorn.error 34544 INFO     Uvicorn running on http://127.0.0.1:9997 (Press CTRL+C to quit)

以下是 Windows 系統修改 Xinference 下載路徑的具體方法

一、通過環境變量修改
臨時設置(單次生效)
在啟動 Xinference 服務前,使用命令提示符執行以下命令(替換目標路徑):
bashCopy Code
set XINFERENCE_HOME=D:\your_custom_path
xinference-local --host 0.0.0.0 --port 9997
此方式僅對當前會話生效25。
永久設置(全局生效)
右鍵點擊“此電腦” → 選擇“屬性” → 進入“高級系統設置” → 點擊“環境變量”
在“系統變量”中新建變量:
textCopy Code
變量名:XINFERENCE_HOME  
變量值:D:\your_custom_path
重啟命令行工具后啟動服務即可生效24。
二、通過符號鏈接重定向
若需保留默認路徑但實際存儲到其他位置:
在目標盤(如 D 盤)創建自定義文件夾(如 D:\xinference_cache)
以管理員權限打開命令提示符,執行:
bashCopy Code
mklink /j "C:\Users\用戶名\.xinference\cache" "D:\xinference_cache"
此方法通過軟鏈接將默認路徑映射到自定義目錄,避免修改環境變量。
注意事項
確保目標路徑存在且具有讀寫權限23
修改環境變量后需重啟命令行工具或系統才能生效4
若同時存在 XINFERENCE_HOME 和 XINFERENCE_CACHE_DIR 變量,優先采用 XINFERENCE_HOME 的配置12
啟動服務時需使用 xinference-local 命令而非直接運行腳本

下載模型

Downloading Model to directory: C:\Users\Administrator\.cache\modelscope\hub\models\qwen\Qwen2.5-1.5B-Instruct
2025-03-10 00:43:53,527 - modelscope - INFO - Got 10 files, start to download ...
Downloading [config.json]: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 660/660 [00:00<00:00, 1.95kB/s]
Downloading [README.md]: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4.80k/4.80k [00:00<00:00, 14.0kB/s]
Downloading [LICENSE]: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 11.1k/11.1k [00:00<00:00, 26.3kB/s]
Downloading [configuration.json]: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2.00/2.00 [00:00<00:00, 4.45B/s]
Downloading [generation_config.json]: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 242/242 [00:00<00:00, 464B/s]
Downloading [tokenizer_config.json]: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7.13k/7.13k [00:00<00:00, 11.4kB/s]

自動選擇 vLLM 的條件

模型格式為 pytorchgptqawq

  1. 當模型格式為 pytorch 時,量化選項需為 none

  2. 當模型格式為 awq 時,量化選項需為 Int4

  3. 當模型格式為 gptq 時,量化選項需為 Int3Int4Int8

操作系統為 Linux,并且至少有一個支持 CUDA 的設備。

自定義模型的 model_family 字段和內置模型的 model_name 字段在 vLLM 的支持列表中。


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論