用本库训练了个中文LLama3，欢迎体验 #238

CrazyBoyM · 2024-04-19T16:15:58Z

训练数据

ShareGPT、ruozhiba、zhihu、xiaohongshu...

仓库地址

https://github.com/CrazyBoyM/llama3-Chinese-chat
模型下载：https://huggingface.co/shareAI/llama3-Chinese-chat-8b

DayDreamChaser · 2024-04-20T04:26:29Z

权重没公开哈。训练其实没什么门槛，关键在数据、数据配比和卡。

我试了下8B的，回答很容易出英文

Lora 大量SFT数据可能能缓解这个问题

但是，毕竟15T的token，只有百分之5是其他语言的，中文有多少就不知道了。算百分之2.5上限，大概3750亿token,下限一两千亿token

要提升中文效果，肯定要增量预训练的+SFT

CrazyBoyM · 2024-04-20T04:30:50Z

llama3 中文权重已经公开了的。其实有网友实测英文原版加上，你是一个"中文智者"的 System 提示词，英文原版instruct 权重就可以达到极好的中文交流效果。个人认为如果没有原先的预训练数据集的话，做增量微调会损害模型已学好的通用知识能力(灾难性遗忘)，反而导致官方 15T 的训练大打折扣了。

…

---原始邮件--- 发件人: ***@***.***> 发送时间: 2024年4月20日(周六) 中午12:26 收件人: ***@***.***>; 抄送: "Ke ***@***.******@***.***>; 主题: Re: [yangjianxin1/Firefly] 用本库训练了个中文LLama3，欢迎体验 (Issue #238) 权重没公开哈。训练其实没什么门槛，关键在数据、数据配比和卡。我试了下8B的，回答很容易出英文 Lora 大量SFT数据可能能缓解这个问题但是，毕竟15T的token，只有百分之5是其他语言的，中文有多少就不知道了。算百分之2.5上限，大概3750亿token,下限一两千亿token 要提升中文效果，肯定要增量预训练的+SFT — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: ***@***.***>

DayDreamChaser · 2024-04-20T05:02:50Z

好的

我试下这个prompt

那增量预训练估计是走不通，毕竟人家的数据可不开源

要是llama3搞了中文，国内没得玩了😂。反正不知道啥原因，留了一手

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

用本库训练了个中文LLama3，欢迎体验 #238

用本库训练了个中文LLama3，欢迎体验 #238

CrazyBoyM commented Apr 19, 2024

DayDreamChaser commented Apr 20, 2024

CrazyBoyM commented Apr 20, 2024 via email

DayDreamChaser commented Apr 20, 2024

用本库训练了个中文LLama3，欢迎体验 #238

用本库训练了个中文LLama3，欢迎体验 #238

Comments

CrazyBoyM commented Apr 19, 2024

训练数据

仓库地址

DayDreamChaser commented Apr 20, 2024

CrazyBoyM commented Apr 20, 2024 via email

DayDreamChaser commented Apr 20, 2024