Added recipe for Qwen3-235b by ankitkumar-quad · Pull Request #145 · AI-Hypercomputer/gpu-recipes

ankitkumar-quad · 2026-03-13T09:17:34Z

No description provided.

inference/g4/qwen3_235b/single-host-serving/tensorrt-llm/READEME.md

Chris113113 · 2026-03-30T16:53:27Z

inference/g4/qwen3_235b/single-host-serving/tensorrt-llm/READEME.md

+
+```
+
+### 5. Quantize the model using FP8


Add an addditional optional section (5.1 Optional) to use a pre-quantized model, such as Nvidia's official FP8 checkpoint: https://huggingface.co/nvidia/Qwen3-235B-A22B-FP8

Chris113113 · 2026-03-30T17:03:10Z

inference/g4/qwen3_235b/single-host-serving/tensorrt-llm/READEME.md

+TP_SIZE=1
+PP_SIZE=1
+EP_SIZE=1
+


Add the setting for NCCL_P2P_LEVEL and a link to the doc for setting: https://docs.cloud.google.com/compute/docs/accelerator-optimized-machines#g4-gpu-p2p

Added recipe for Qwen3-235b

e428e11

depksingh reviewed Mar 16, 2026

View reviewed changes

inference/g4/qwen3_235b/single-host-serving/tensorrt-llm/READEME.md Outdated Show resolved Hide resolved

depksingh reviewed Mar 16, 2026

View reviewed changes

inference/g4/qwen3_235b/single-host-serving/tensorrt-llm/READEME.md Outdated Show resolved Hide resolved

depksingh reviewed Mar 16, 2026

View reviewed changes

inference/g4/qwen3_235b/single-host-serving/tensorrt-llm/READEME.md Outdated Show resolved Hide resolved

depksingh suggested changes Mar 16, 2026

View reviewed changes

ankitkumar-quad added 3 commits March 16, 2026 15:38

Update READEME.md

47f7068

Update READEME.md

b07a2df

Update READEME.md

567597e

depksingh reviewed Mar 16, 2026

View reviewed changes

inference/g4/qwen3_235b/single-host-serving/tensorrt-llm/READEME.md Outdated Show resolved Hide resolved

depksingh reviewed Mar 16, 2026

View reviewed changes

inference/g4/qwen3_235b/single-host-serving/tensorrt-llm/READEME.md Outdated Show resolved Hide resolved

depksingh reviewed Mar 16, 2026

View reviewed changes

inference/g4/qwen3_235b/single-host-serving/tensorrt-llm/READEME.md Outdated Show resolved Hide resolved

depksingh reviewed Mar 16, 2026

View reviewed changes

inference/g4/qwen3_235b/single-host-serving/tensorrt-llm/READEME.md Outdated Show resolved Hide resolved

ankitkumar-quad added 2 commits March 16, 2026 16:07

Update READEME.md

261d7fc

Update READEME.md

ab16df4

Chris113113 requested changes Mar 30, 2026

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Added recipe for Qwen3-235b#145

Added recipe for Qwen3-235b#145
ankitkumar-quad wants to merge 6 commits intoAI-Hypercomputer:mainfrom
ankitkumar-quad:main

ankitkumar-quad commented Mar 13, 2026

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Chris113113 Mar 30, 2026

Uh oh!

Chris113113 Mar 30, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

Conversation

ankitkumar-quad commented Mar 13, 2026

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Chris113113 Mar 30, 2026

Choose a reason for hiding this comment

Uh oh!

Chris113113 Mar 30, 2026

Choose a reason for hiding this comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants