Replies: 1 comment
-
训练时候会自动按照 cutofflen 分组,不用关心原本的长度 |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
Reminder
System Info
Reproduction
首先非常感谢开源该项目,我在使用过程中遇到了如下的问题:
1. 问题1
我按照readme 提及预训练数据的格式进行了准备。格式是:
[{"text": "document"}, {"text": "document"} ]
发现我的数据中有些document包含的中文字符的长度范围为几百到几万。但是我看模型的输入为截断长度cutoff_len是2048,这里如何理解,以及我需要做什么调整?
2. 问题2
同时,我的数据集是一个文章集合,共100篇文章,20w字。每篇文章字数几百到几万不等,请教一下采用怎样的训练策略比较合适。
Others
No response
Beta Was this translation helpful? Give feedback.
All reactions