项目中的 DTLN AEC Model 是参考 Parper URL 中的论文与 DTLN 源码复现的
- ConCat 应该在 Channel 的维度上进行计算,而不是在 Time 维度上进行计算, 所以
tf.concat
的第二个参数应该是0
- 在第二个分离核心中应该输入的是加窗之后的信号数据
- 数据格式转换: 将所有数据转换为 16Khz Mono Wav 格式的音频文件.
- 完成回声音频文件生成, 同样为 16Khz Mono Wav 格式的音频文件.
- 完成干声音频文件与回声音频文件对应.
- 完成 Mixed 音频文件生成. (AudioSegment overlay 即可, 还是需要保持是 Mono).
- 不同使用不同响度的回声音频文件.
- 使用不同响度的干声音频文件.
- 完成 Tensorflow Dataset.
- 切分训练集, 切分验证集.
- 开始模型训练.
TBD
TBD