我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

赤兔Chitu:清華大學團隊開源的高性能大語言模型推理框架

赤兔(Chitu)是什么?

赤兔(Chitu)是由清華大學團隊開源的一個高性能大語言模型推理框架,專注于提升推理效率、降低成本,并支持多種硬件平臺和部署場景。它可以讓DeepSeek推理成本降一半,性能翻番。赤兔(Chitu)的目標是為企業(yè)和開發(fā)者提供一個高效、靈活且易于部署的推理引擎,加速大語言模型(LLM)在實際應(yīng)用中的落地。

赤兔Chitu:清華大學團隊開源的高性能大語言模型推理框架.webp

赤兔(Chitu)功能特點

  • 多元算力適配:支持 NVIDIA 最新旗艦到舊款的多系列產(chǎn)品,并為國產(chǎn)芯片提供優(yōu)化支持。

  • 全場景可伸縮:從純 CPU 部署、單 GPU 部署到大規(guī)模集群部署,提供靈活的可擴展解決方案。

  • 長期穩(wěn)定運行:適用于實際生產(chǎn)環(huán)境,能夠穩(wěn)定承載并發(fā)業(yè)務(wù)流量。

  • 高效推理性能:在 A800 集群測試中,相比部分國外開源框架,GPU 使用量減少 50% 的情況下推理速度提升 3.15 倍。

  • 降低成本:通過優(yōu)化硬件資源使用,降低了企業(yè)部署 ai 模型的門檻和成本。

赤兔(Chitu)應(yīng)用場景

  • 企業(yè)級 AI 應(yīng)用:需要高性能、低延遲和高吞吐量的推理服務(wù)。

  • 大規(guī)模集群部署:需要在多 GPU 或多節(jié)點環(huán)境中高效運行的場景。

  • 資源受限的環(huán)境:需要在有限的硬件資源下實現(xiàn)高效推理的場景。

  • 國產(chǎn)芯片適配:需要在國產(chǎn)硬件平臺上運行大語言模型的場景。

赤兔(Chitu)使用方法

1. 源碼安裝

git clone --recursive https://github.com/thu-pacman/chitu && cd chitu
pip install -r requirements-build.txt
pip install -U torch --index-url https://download.pytorch.org/whl/cu124  # 根據(jù) CUDA 版本調(diào)整
TORCH_CUDA_ARCH_LIST=8.6 CHITU_SETUP_JOBS=4 MAX_JOBS=4 pip install --no-build-isolation

2.單 GPU 推理

torchrun --nproc_per_node 8 test/single_req_test.py request.max_new_tokens=64 models=DeepSeek-R1 models.ckpt_dir=/data/DeepSeek-R1 infer.pp_size=1 infer.tp_size=8

3.混合并行 (TP+PP)

torchrun --nnodes 2 --nproc_per_node 8 test/single_req_test.py request.max_new_tokens=64 infer.pp_size=2 infer.tp_size=8 models=DeepSeek-R1 models.ckpt_dir=/data/DeepSeek-R1

4.啟動服務(wù)

export WORLD_SIZE=8
torchrun --nnodes 1 \
--nproc_per_node 8 \
--master_port=22525 \
example/serve.py \
serve.port=21002 \
infer.stop_with_eos=False \
infer.cache_type=paged \
infer.pp_size=1 \
infer.tp_size=8 \
models=DeepSeek-R1 \
models.ckpt_dir=/data/DeepSeek-R1 \
keep_dtype_in_checkpoint=True \
infer.mla_absorb=absorb-without-precomp \
infer.soft_fp8=True \
infer.do_load=True \
infer.max_reqs=1 \
scheduler.prefill_first.num_tasks=100 \
infer.max_seq_len=4096 \
request.max_new_tokens=100 \
infer.use_cuda_graph=True

5.性能測試

python benchmarks/benchmark_serving.py \
--model "deepseek-r1" \
--iterations 10 \
--seq-len 10 \
--warmup 3 \
--base-url http://localhost:21002

GitHub倉庫:https://github.com/thu-pacman/chitu


收藏
最新工具
Quick Prompt
Quick Prompt

一個專注于提示詞(Prompt)的管理和快速輸入的瀏覽器擴展插件...

FoldNFly
FoldNFly

一個專注于紙飛機折疊教程的網(wǎng)站,提供豐富的紙飛機設(shè)計資源、制作指...

VoiceCanvas
VoiceCanvas

一款文本轉(zhuǎn)語音工具,支持 50 多種語言,具備語音克隆功能,僅需...

Loud Fame
Loud Fame

一款AI視頻生成和編輯工具,能夠?qū)⑵胀ㄒ曨l轉(zhuǎn)換為具有動漫風格的視...

PPT世界
PPT世界

QIJ鰭跡旗下產(chǎn)品,集PPT模板下載、設(shè)計教程、交流社區(qū)和定制服...

職達AI簡歷
職達AI簡歷

一個專業(yè)的 AI 簡歷優(yōu)化平臺,提供簡歷&求職一站式服務(wù)...

喵記多APP
喵記多APP

快手推出的邊聊天邊記錄的AI筆記,主要功能包括管理筆記,如剪藏、...

暢圖
暢圖

一款由摹客推出的AI原生可視化工具,專為個人和團隊的創(chuàng)意表達、知...

Ztalk ai
Ztalk ai

一個AI驅(qū)動的會議實時語音翻譯平臺,可以與 Zoom、Googl...

Supercut
Supercut

一款屏幕錄制工具,能幫你快速錄下屏幕上的內(nèi)容,錄制的視頻可以自動...

主站蜘蛛池模板: 安吉县| 两当县| 神木县| 吉木萨尔县| 霸州市| 吉木萨尔县| 建昌县| 和田县| 信阳市| 定日县| 本溪| 临江市| 康保县| 额尔古纳市| 运城市| 赤城县| 霸州市| 长岭县| 阿瓦提县| 济阳县| 大田县| 玛纳斯县| 贵南县| 田林县| 广饶县| 买车| 安吉县| 石屏县| 丹阳市| 亚东县| 嘉善县| 北流市| 昭苏县| 象山县| 黑龙江省| 平湖市| 房产| 涟水县| 温宿县| 修文县| 即墨市|