-
Notifications
You must be signed in to change notification settings - Fork 453
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
用本库训练了个中文LLama3,欢迎体验 #238
Comments
权重没公开哈。训练其实没什么门槛,关键在数据、数据配比和卡。 我试了下8B的,回答很容易出英文 Lora 大量SFT数据可能能缓解这个问题 但是,毕竟15T的token,只有百分之5是其他语言的,中文有多少就不知道了。算百分之2.5上限,大概3750亿token,下限一两千亿token 要提升中文效果,肯定要增量预训练的+SFT |
llama3 中文权重已经公开了的。其实有网友实测英文原版加上,你是一个"中文智者"的 System 提示词,英文原版instruct 权重就可以达到极好的中文交流效果。
个人认为如果没有原先的预训练数据集的话,做增量微调会损害模型已学好的通用知识能力(灾难性遗忘),反而导致官方 15T 的训练大打折扣了。
…---原始邮件---
发件人: ***@***.***>
发送时间: 2024年4月20日(周六) 中午12:26
收件人: ***@***.***>;
抄送: "Ke ***@***.******@***.***>;
主题: Re: [yangjianxin1/Firefly] 用本库训练了个中文LLama3,欢迎体验 (Issue #238)
权重没公开哈。训练其实没什么门槛,关键在数据、数据配比和卡。
我试了下8B的,回答很容易出英文
Lora 大量SFT数据可能能缓解这个问题
但是,毕竟15T的token,只有百分之5是其他语言的,中文有多少就不知道了。算百分之2.5上限,大概3750亿token,下限一两千亿token
要提升中文效果,肯定要增量预训练的+SFT
—
Reply to this email directly, view it on GitHub, or unsubscribe.
You are receiving this because you authored the thread.Message ID: ***@***.***>
|
好的 我试下这个prompt 那增量预训练估计是走不通,毕竟人家的数据可不开源 要是llama3搞了中文,国内没得玩了😂。反正不知道啥原因,留了一手 |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
训练数据
ShareGPT、ruozhiba、zhihu、xiaohongshu...
仓库地址
https://github.com/CrazyBoyM/llama3-Chinese-chat
模型下载:https://huggingface.co/shareAI/llama3-Chinese-chat-8b
The text was updated successfully, but these errors were encountered: