[BUG] <title>mmlu代码测试问题 #1341

BeSkyer · 2025-01-05T16:05:14Z

是否已有关于该错误的issue或讨论？ | Is there an existing issue / discussion for this?

我已经搜索过已有的issues和讨论 | I have searched the existing issues / discussions

该问题是否在FAQ中有解答？ | Is there an existing answer for this in FAQ?

我已经搜索过FAQ | I have searched FAQ

当前行为 | Current Behavior

我在测试mmlu的时候发现，准确率是0
我发现在
<
for i in range(len(probs)):
for j, choice in enumerate(choices):
all_probs[f"prob_{choice}"].append(probs[i][j])
pred = {0: "A", 1: "B", 2: "C", 3: "D"}[np.argmax(probs[i])]

        if answer_list != []:
            correct = 1 if pred == answer_list[i] else 0
            score.append(correct)
            if args.debug:
                print(f'{question} pred: {pred} ref: {answer_list[i]}')
        result.append(pred)

这段中，pred（字母）和answer_list[i]（数据集中是数字），他们进行比较，查看是否相等。这显然是永远不等的

期望行为 | Expected Behavior

希望可以更改一下比如
<
for i in range(len(probs)):
for j, choice in enumerate(choices):
all_probs[f"prob_{choice}"].append(probs[i][j])

        pred = {0: "A", 1: "B", 2: "C", 3: "D"}[np.argmax(probs[i])]

        if answer_list != []:
            ref_answer = {0: "A", 1: "B", 2: "C", 3: "D"}[answer_list[i]]
            correct = True if pred == ref_answer else False
            score.append(correct)
            print(f'{question} pred: {pred} ref: {ref_answer}')
            # if args.debug:
            #     print(f'{question} pred: {pred} ref: {answer_list[i]}')
        result.append(pred)

复现方法 | Steps To Reproduce

No response

运行环境 | Environment

- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA (`python -c 'import torch; print(torch.version.cuda)'`):

备注 | Anything else?

No response

The text was updated successfully, but these errors were encountered:

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[BUG] <title>mmlu代码测试问题 #1341

[BUG] <title>mmlu代码测试问题 #1341

BeSkyer commented Jan 5, 2025

[BUG] <title>mmlu代码测试问题 #1341

[BUG] <title>mmlu代码测试问题 #1341

Comments

BeSkyer commented Jan 5, 2025

是否已有关于该错误的issue或讨论？ | Is there an existing issue / discussion for this?

该问题是否在FAQ中有解答？ | Is there an existing answer for this in FAQ?

当前行为 | Current Behavior

期望行为 | Expected Behavior

复现方法 | Steps To Reproduce

运行环境 | Environment

备注 | Anything else?