[ISSUE] 模型推理有优化参数或者预期的优化方案吗 #86
Replies: 8 comments 13 replies
-
关于计划
对于你本地的话,目前最简单有用的优化就是装上 flash attn。正确安装之后 llama model 会自己加载并使用,有一定的速度增益 关于 batch_size,目前并不是传统意义上的 batch,因为推理依赖上下文无法完全并行,只有当满足分割条件时才会触发 batch 推理(即长文本推理), 这个 batch_size 可以理解为 max_batch_size |
Beta Was this translation helpful? Give feedback.
-
有4090相关的性能数据吗。 我这个数据看起来好像正常,但是感觉延迟还是很高。我怀疑我这边环境有问题,从监控看,GPU使用率很低。我想看下4090的一个正常加速的数据 |
Beta Was this translation helpful? Give feedback.
-
现象来看,响应时间跟并发成正比,感觉是并发没做起来。导致我整体的GPU使用率都提不上去 |
Beta Was this translation helpful? Give feedback.
-
Beta Was this translation helpful? Give feedback.
-
这边记录几个问题:
|
Beta Was this translation helpful? Give feedback.
-
2noise/ChatTTS#612 (commits) |
Beta Was this translation helpful? Give feedback.
-
@zhzLuke96 音频的声道、位深 这些参数对应的是哪个文件的哪些key值? |
Beta Was this translation helpful? Give feedback.
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
阅读 README.md 和 dependencies.md
检索 issue 和 discussion
检查 Forge 版本
你的issues
目前来看,用一张4090显卡推理,QPS超过1响应时间就很长了。在推理这块有没有优化参数或者优化方案,请求参数中有batch_size,这个参数batch合成是否意味着可以加速推理?从文档我没有看的太懂。
从压测数据来看,GPU使用率只能达到50%(worker配置的是4,batch_size设置的默认值)。
目前有优化方案或者优化路线吗?从模型工程或者算法层面有预期的优化策略吗
Beta Was this translation helpful? Give feedback.
All reactions