Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

再弱弱的问一个问题,训练到多少算是完成的? #48

Open
krysof opened this issue Apr 23, 2023 · 19 comments
Open

再弱弱的问一个问题,训练到多少算是完成的? #48

krysof opened this issue Apr 23, 2023 · 19 comments

Comments

@krysof
Copy link

krysof commented Apr 23, 2023

看代码好像是 10000 步?但step 22xxxx都没停。。。

@MaxMax2016
Copy link
Collaborator

不会自动停止,一般通过看loss的范围,手动去停止

@krysof
Copy link
Author

krysof commented Apr 23, 2023

INFO - g 10.1374 m 5.2200 s 4.1075 d 0.1266 | step 233850

这样是不是差不多了?

@MaxMax2016
Copy link
Collaborator

这个loss看上去不太好,而且训练了很久了吧?使用预训练模型在微调的话,lora: Fasle的话s应该在2.5左右、但是容易过拟合, lora: True的话s应该在3左右 、不会过拟合。训练数据有样例没有呢?

@krysof
Copy link
Author

krysof commented Apr 23, 2023

就是纯按教程的流程跑的,有80分钟左右人声的音频,切片10秒一段,保证没空的。 lora 默认是 true 的吧,跑了24小时左右。训练数据样例是指 wav ?

@MaxMax2016
Copy link
Collaborator

训练数据样例是指 wav ?是的

@MaxMax2016
Copy link
Collaborator

可以使用tensorboard --logdir logs/ 查看和听训练效果

@MaxMax2016
Copy link
Collaborator

80分钟左右人声,是一个人的还是多个人的?

@krysof
Copy link
Author

krysof commented Apr 23, 2023

数据如下,是同一个人的声音。
链接: https://pan.baidu.com/s/1mxCgl1QsR1fCBIlFTigKzg?pwd=5h6j

image
虽然看不太懂,但看起来应该不妙吧?

@MaxMax2016
Copy link
Collaborator

这个页面可以听训练效果

@krysof
Copy link
Author

krysof commented Apr 23, 2023

image

不知道为何。。。只有10个可以听, logs 里有好多个 log 的

@MaxMax2016
Copy link
Collaborator

上面5个是模型生成的,下面5个是原始音频;5这个数字是设置的。

@krysof
Copy link
Author

krysof commented Apr 23, 2023

上下听上去差不多是不是就可以了?但怎么看出是哪个pt的?比如 234688 就用234680的?

@MaxMax2016
Copy link
Collaborator

上面展示的都是最新的模型的效果,就是序号最大的那个

@krysof
Copy link
Author

krysof commented Apr 23, 2023

感谢回答这些小白问题,我再试试看看。。。

@krysof
Copy link
Author

krysof commented Apr 23, 2023

还是得再问一个,怎么增加试听数量,是在配置文件,还是 --samples_per_plugin=audio=100 ,但后者好像没有效果。

@MaxMax2016
Copy link
Collaborator

@krysof
Copy link
Author

krysof commented Apr 23, 2023

链接: https://pan.baidu.com/s/1EhaxXueZFDGKZIoHhuFuhA?pwd=8wkz 提取码: 8wkz

好像怪怪的。。。

@MaxMax2016
Copy link
Collaborator

MaxMax2016 commented Apr 23, 2023

网上那些是有强大的后期混音的,百万修音师那种;弄一个UI编辑F0是很有必要的,现在还没有白嫖的完全能用的F0提取模型和算法。

@krysof
Copy link
Author

krysof commented Apr 23, 2023

目前用 audution,不过缺少相应的基础知识,不知道要怎么改。。。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants