客厅里的 70B 推理盒子
把 Mac Studio 塞进电视柜,一家人共享本地大模型,离线问诊、写代码、改作业。
Shells of AI 是一个由开发者驱动的 AI 硬件聚合站。 数据库、实测、失败案例、本地部署——我们把别人花一周才搞清楚的事,压缩成 5 分钟。
Llama-3.1 70B Q4 跑出 38 tok/s,温度压住了
Qwen2.5-72B 全精度本地推理零卡顿
ROCm 6.2 终于能跑 vLLM 了,比上版快 2.4x
边缘部署 YOLO11 + Whisper 同时跑,功耗 28W
MLX 跑 SDXL,6 秒一张图,性价比拉满
Llama-3.1 70B Q4 跑出 38 tok/s,温度压住了
Qwen2.5-72B 全精度本地推理零卡顿
ROCm 6.2 终于能跑 vLLM 了,比上版快 2.4x
边缘部署 YOLO11 + Whisper 同时跑,功耗 28W
MLX 跑 SDXL,6 秒一张图,性价比拉满
驱动 566.x BSOD,回退 555 才稳定
想跑 Llama 70B → OOM,128GB 才是门票
Edge TPU 不支持 transformer,白买
P2P 通信掉速到 PCIe x4,全程客服扯皮
PSU 不够 → 突然黑屏,建议直接 1200W
驱动 566.x BSOD,回退 555 才稳定
想跑 Llama 70B → OOM,128GB 才是门票
Edge TPU 不支持 transformer,白买
P2P 通信掉速到 PCIe x4,全程客服扯皮
PSU 不够 → 突然黑屏,建议直接 1200W
vLLM + AWQ 部署 Qwen2.5-32B,并发 16
Ollama + Open WebUI 一键起飞,35 行配置
Triton + TensorRT 9.3 边缘端到端 18ms
ROCm 全家桶搞定,跑 SD3 + LLM 双开
exo 集群 192GB,4 卡推理 405B 模型
vLLM + AWQ 部署 Qwen2.5-32B,并发 16
Ollama + Open WebUI 一键起飞,35 行配置
Triton + TensorRT 9.3 边缘端到端 18ms
ROCm 全家桶搞定,跑 SD3 + LLM 双开
exo 集群 192GB,4 卡推理 405B 模型
基于真实跑分、市场价格、社区投票综合排序,每小时刷新。
真实的人,真实的机器,真实的怎么用。
把 Mac Studio 塞进电视柜,一家人共享本地大模型,离线问诊、写代码、改作业。
二手矿卡组 192GB 显存,跑 405B 不是梦。
塞进口袋,离线实时翻译 12 种语言。
10 分钟出图改图闭环,告别云端排队。
30 美刀边缘盒,自动识别异物。
$1399 的小盒子,承包所有家庭 AI 需求,电费每月 8 块。
每个模块都是社区共建的开放数据库。先用,再共建,再受益。
GPU / NPU / 边缘设备的结构化规格、显存、TDP、价格历史。
真实环境跑分、推理速度、噪声温度、量化精度对比。
驱动崩溃、OOM、兼容性陷阱,绕开别人踩过的坑。
看别人怎么搭,从客厅到工厂的真实部署。
vLLM / Ollama / MLX / TensorRT 的可复制配置文件。
从买卡到上线的端到端实战,覆盖训练 / 推理 / 微调。
5,612 名开发者已经在分享自己的踩坑、配置和跑分。 注册即可投稿评测、订阅价格变动、Fork 部署模板。
// free · open · 不卖你硬件