AI+教育调研（2）

AI+创造力（1）

关于创造力的论文和观点

关于创造力的观点

1、创造力有==领域（任务）特殊性==，不同领域的创造力不能一概而论。

2、课堂环境是影响创造力的关键因素，要创造具有创造力的课堂环境，需要老师：理解创造力研究、持续反思学生如何感受环境、鼓励并反馈学生的创造性表达。

3、关于发散思维：发散思维训练，虽然可能提升特定领域或任务的创造力，但这种提升并非源于一般创造力技能的增强，而是特定技能的提升。

创造力的主流测试方式：Torrance Tests of Creative Thinking (TTCT)

1. TTCT-Figural（图形版）

形式：以图画、图形为主
适用年龄：幼儿园儿童到成人
典型任务：
- 不完整图形补全（完成一幅画）
- 线条/圆圈的创造性使用
- 图形组合
特点：不受语言限制，适合跨文化研究

2. TTCT-Verbal（言语版）

形式：以文字、语言为主
适用年龄：小学1年级到成人
典型任务：
- 非常规用途测验（Unusual Uses）：如”砖头有哪些不寻常的用途？”
- 假设性问题：”如果人类不需要睡眠会怎样？”
- 产品改进：如何改进某个日常用品？
- 情景想象

创造力的主要评估指标：

指标
流畅性	Fluency	流畅性	产生大量想法的能力
灵活性	Flexibility	变通性/灵活性	从不同角度思考、转换思路的能力
独创性	Originality	独特性	产生新颖、罕见想法的能力
精细性	Elaboration	精密性	对想法进行细节加工和扩展的能力

AI+edu论文（主要针对数据、实验）

1、学习者模拟数据生成

解决问题

智能教育系统依赖的高质量学习者练习数据稀缺；传统的学习者数据模拟过于简化，严重依赖大量真实数据训练。

方法

模拟人脑的“档案-记忆-行动”过程来生成逼真的学习者数据

学习者档案：从已有数据中提取每个学习者的显式练习风格（如活跃度、成功率）和隐式认知因子（如解题能力），作为智能体的初始设定

记忆：分为事实记忆（存储具体答题记录）、短期记忆（保留近期记录）和长期记忆（通过“反复练习”转化为总结性知识并会“遗忘”），动态追踪学习状态

行动：经历“选择是否做题”、“阅读理解题目”、“分析并解答”的完整决策和解题过程

学习环境：将上述智能体与任何个性化学习算法（如自适应测试）连接，让算法为智能体推荐题目

数据集

（1）EduData

来源：由科大讯飞提供。

规模：包含500名中国高中生的18,045条时间有序的数学和物理答题记录。涉及1,032道习题和458个知识点。

主要用途：用于初始化智能体的档案、训练实验中作为对比的基线模型、以及评估智能体生成数据的质量。通常按90%（训练）/10%（测试）或60%（训练）/40%（测试）的比例分割。

预处理：将所有的中文习题文本内容翻译为英文，以便LLM处理。

（2）生成/增强数据集：EduData+

来源：由Agent4Edu的智能体在零样本（随机初始化档案）或特定条件下生成。

规模：在实验中，为测试集的学习者模拟生成了20条额外的答题记录。

主要用途：与原始的EduData训练数据合并，用于增强个性化学习算法（如计算机化自适应测试CAT模型）的训练，验证生成数据的价值。

实验

（1）LLM仿真能力评估

学习者模拟：将智能体生成的答题数据与真实数据对比，验证其模拟答题准确性和数据分布相似性的能力

习题理解：让智能体从候选列表中识别习题考察的知识点，验证其理解题目语义的能力。

零样本模拟：让随机初始化的智能体答题并生成总结，由其他LLM判断其输出“是否像人写的”

消融实验

（2）个性化学习评估

多维度算法评估：从满意度、难度适当性、是否有收获三个维度评价自适应测试的算法

算法性能增强：用智能体生成的模拟数据扩充训练集（EduData+），重新训练CAT模型。验证生成的数据能有效提升下游算法性能。

评估指标

（1）用于评估智能体答题预测性能

准确率 (ACC)：衡量智能体预测学习者答题对错的正确比例

F1分数 (F1-score)：综合了预测的精确率和召回率

ROUGE-3 (R-3)：比较智能体生成的模拟答题序列与真实序列中连续3个答题结果的匹配度

（2）用于评估智能体理解题目能力

准确率 (ACC)：衡量智能体正确识别习题所考察知识点的比例

（3）用于评估个性化学习算法

满意度：由智能体主观判断算法推荐的服务是否令人满意，衡量算法的主观接受度

难度适当性：由智能体判断推荐习题的难度是否合适，衡量算法调度难度的能力

是否有收获：由智能体判断练习推荐习题后是否有收获，衡量算法能否带来学习价值。这三个指标共同实现了对算法服务质量的多维度、细粒度、拟人化评估

（4）用于评估算法增强效果

F1分数 (F1-score)：在增强数据集EduData+上重新训练CAT模型后，用其预测测试集答题对错的F1值，与在原数据EduData上训练的结果对比

2、快速自适应认知诊断框架（CAT）

解决问题

当前用于计算机自适应测试的认知诊断模型在测试早期（学生答题数很少时）表现不佳，诊断速度慢且不准确。这导致系统无法快速评估学生能力，影响了自适应测试的效率。

方法

快速自适应认知诊断框架。

建立动态响应图，连接学生、题目和知识点，使用图卷积聚合相似学生的信息，从而在早期快速构建学生画像；捕获每位学生答题序列的时序关系，并通过自注意力机制突出关键答题信息，实现个性化建模；最后，一个融合模块将协同和个性化信息结合，并嵌入到任何现有的认知诊断模型中。

数据集

数据集名称	来源/领域	规模（学生、题目、知识点）	主要用途及预处理
FrcSub	公开数学数据集（分数减法）	536名学生，20题，8个知识点	用于模拟CAT测试。数据集被划分为候选集（用于自适应选题）和评估集（用于测试诊断效果）。
EDMCup2023	EDM竞赛公开的在线学习数据集	27,178名学生，1,687题，542个知识点	同上，用于CAT实验。大规模，稀疏度较低，用于测试模型在大规模场景下的效果。
NeurIPS2020	NeurIPS 2020教育挑战赛数据集	4,918名学生，455题，38个知识点	同上，用于CAT实验。也具有较大规模，用于验证通用性。

实验

（1）结合不同选题策略：将FACD结合到IRM和NCD模型上，与5种选题策略（如随机、MAAT、BECAT等）配合使用。

（2）比较不同表示提取模块：将FACD与另外两种图诊断模型（RCD, ORCDF）进行比较。

（3）消融实验

（4）深度分析：包括推理速度对比、不同预训练比例下的表现分析、以及学生能力表示的可视化（t-SNE）。

评估指标

（1）AUC：衡量模型预测学生答题正确与否的整体区分能力。

（2）ACC：直接衡量模型预测结果（对/错）与真实答题结果相符的比例。

3、试卷的计算化自适应测试

解决问题

传统基于“逐题自适应”的计算机化自适应测试（CAT）在高风险标准化考试（如GRE、GMAT）中存在三大挑战：

考生题目序列完全不同，难以横向比较成绩，降低了考试的透明度和公信力；依赖实时交互作答与模型更新，延长考试时间，且系统维护负担大；难以同时权衡诊断精度、知识点覆盖范围和试题暴露度等多个关键考试质量指标。

方法

将传统CAT从“逐题自适应”改为“逐卷自适应”，并提供离线批量组卷方案

考试分为两个阶段。考生在第一阶段完成难度适中的试卷，系统根据其表现，在第二阶段自适应分配“简单”或“困难”的试卷；利用多目标进化算法，以诊断质量、知识点覆盖率和试题暴露度为优化目标，在考前批量生成大量高质量的试卷组合。

数据集

（1）ASSIST (Assistment 2017)

来源: Assistment在线教育平台。

规模: 120名学生，83道题，43个知识点。

用途: 用于训练认知诊断模型（CDM），并划分为80%训练集和20%测试集，用于评估PCAT与基线方法。

（2）MOOC (MOOCRadar)

来源: MOOC在线教育平台。

规模: 1,230名学生，181道题，180个知识点。

用途: 同样用于CDM训练与PCAT/基线方法的评估（80%-20%划分）。

（3）PROB-STA (ProbabilityAndStatistic)

来源: 在线教育平台。

规模: 105名学生，263道题，63个知识点。

用途: 用于CDM训练与评估（80%-20%划分）。

（4）COM-TH (ComputationalThinking)

来源: 在线教育平台。

规模: 2,433名学生，272道题，57个知识点。

用途: 用于CDM训练与评估（80%-20%划分）。

预处理：从一个稀疏的学生-作答矩阵中，提取出一个规模尽可能大的、完全稠密的子集

实验

（1）诊断质量对比：在所有数据集上比较了PCAT与Random, MFI, GMOCAT等基线CAT方法的诊断性能

（2）属性覆盖率和试题暴露度对比：在所有数据集上，将PCAT与基线方法进行比较，并用比值进行归一化可视化

（3）多目标权衡分析：展示了PCAT通过MOO算法得到的一系列在AUC/ACC, COV, EXP等目标间进行权衡的试卷组合解集

评估指标

（1）AUC

（2）ACC

（3）COV：分配给每位考生的题目所覆盖的平均知识点比例

（4）EXP：所有题目在所有考生试卷中出现频率的均方差

（5）在线执行时间：算法在执行考试过程中所需的实际交互时间

4、通过代码图进行编程知识追踪

解决问题

编程知识追踪（PKT）模型在评估学习者编程知识水平时，会受到编程活动中两类噪声信号的严重干扰。这两类噪声分别是：与题目无关的不相关代码提交，以及对已有代码进行微小修改而产生的弱信号。

方法

噪声信号识别阶段：该阶段将学习者松散的代码提交序列转换成紧凑的代码图。

自适应PKT阶段：该阶段设计了一个轻量级的调优适配器，将其接入到一个已经训练好的PKT基础模型上。适配器会根据上一阶段识别出的噪声类型，生成一个修正信号，用于调整基础模型推断出的、可能被噪声污染的知识状态。

数据集

（1）BePKT: 来源为中国部分大学学生的编程提交记录。包含479名学习者对423道题的27,697次提交。用于训练、验证和测试编程知识追踪模型。

（2）AtCoder: 来源于在线编程竞赛网站AtCoder。包含5,523名学习者对832道题的197,419次提交。用于训练、验证和测试。

（3）BePKT_C++: 是BePKT的子集，仅包含C++语言的提交。包含447名学习者对146道题的4,278次提交。专用于支持仅处理单语言的基线模型（PST）的对比实验。

（4）AtCoder_C: 是AtCoder的子集，仅包含C语言的提交。包含5,416名学习者对832道题的27,297次提交。同样用于支持PST的对比实验。

剔除了提交记录少于5次的学习者

实验

（1）下一题表现预测

（2）消融实验

（3）代码图分析

（4）知识追踪可视化

评估指标

AUC、RMSE、F1-score

5、数学问题生成 ACL 2025

解决问题

现有AI生成数学题目的方法主要关注文本质量，但普遍忽视了核心的教育目标（如考核特定概念、能力）；现有方法多为单步生成，难以生成同时满足复杂、多维教育要求的高质量数学题目。

方法

模拟教师的“计划-评估-优化”迭代流程。该框架包含三个模块：

Critic（评估）模块：使用大语言模型评估已生成的题目，判断其是否满足给定的多维教育目标，并给出具体的修改建议和评分；Reflection（反思）模块：根据Critic模块的反馈和历史修改记录，分析问题所在并生成具体的题目优化指令；MCTS Planning（规划）模块：将题目优化过程建模为一个搜索任务，使用蒙特卡洛树搜索算法，在Critic和Reflection模块的指导下，系统地探索和选择最优的题目优化路径，最终生成高质量的题目。

数据集

（1）EduMath-SQ (Standard Questions)

来源与规模：从真实的高中模拟考和高考数学试卷中筛选得到，包含10,763个数学题目。

主要用途：用于训练、验证和测试（随机选取10%作为测试集）。

预处理与标注：过滤了包含图像或不完整解答的题目。使用DeepSeek-V3进行三轮迭代标注，为每个题目标注了多维度教育目标（如概念、核心能力、认知水平等），最终标注准确率达95.2%。

（2）EduMath-CQ (Contextual Questions)

来源与规模：同样来源于真实高中试卷，是EduMath-SQ的一个子集，特指包含现实情境的题目，包含5,585个题目。

主要用途：用于训练、验证和测试（随机选取10%作为测试集），专门测试模型生成带情境题目的能力。

预处理与标注：预处理和标注流程与EduMath-SQ相同。

实验

（1）主实验：在EduMath两个数据集上，使用GPT-4o-Mini和DeepSeek-V3等大模型，将EQPR方法与多个基线方法（如CoT、ReAct、DEAR）对比，验证模型整体的有效性。

（2）人工评估实验：聘请三位评估者对生成题目的清晰度和质量进行手动评分和比较。

（3）消融实验：分别移除不同模块进行实验

（4）额外实验：使用更多大模型作为基础，使用框架

评估指标

（1）SOLVABLE（可解性）：评估生成的数学题目本身是否有解。作用：这是对生成题目的基本要求，确保题目在数学上是合理的。

（2）PASS Rate（通过率）：评估生成的题目在多大程度上满足了给定的所有教育目标。作用：核心指标，直接衡量生成题目与预设教育目标的吻合度。

（3）WIN Rate（胜率）：将生成的题目与标准答案在满足教育目标、语言流畅度、情境融合度等方面进行比较，由大语言模型（或人类）判断哪个更好。作用：综合衡量生成题目的相对质量。

人工评估指标：

（1）Clarity（清晰度）：人类评估者对题目可读性和可理解性的打分（0-2分）。作用：评估题目表述是否清晰。

（2）Win Rate-Human（人类胜率）：人类评估者比较生成题目与标准答案的质量优劣。作用：避免大语言模型评估可能存在的偏见，提供更可靠的质量判断。

6、强化学习和LLM的路径规划 WWW 2026

解决问题

传统个性化学习路径规划方法依赖于静态的学员画像和预定义资源，导致学习体验碎片化；基于大语言模型的方法虽能动态生成内容，但缺乏对长期学习进程和抽象教育目标的建模与规划机制。

方法

结合强化学习和LLM驱动架构

强化学习：设计一个结构化的学生状态模型，表示学习目标和学习动力；定义一个自动化奖励函数。训练先用有监督微调初始化，然后用组相对优化策略进行长期规划。

LLM驱动：预规划阶段实时分析学生行为，生成结构化学生画像并检索学习动作；后规划阶段将学习动作转化为个性化学习内容。

数据集

（1）主要数据集（来自真实学习系统MAIC）

来源：从一个名为MAIC的真实在线学习平台收集。

规模：包含300个完整学习会话，总计14，584次交互（输入和响应对）。其中，250个会话用于训练（11，328次交互），50个用于测试（3，256次交互）。

用途：用于训练和评估策略模型。

预处理：利用GPT-4o处理会话记录，生成结构化的学习状态。再由三名人类专家对每个状态标注出下一最优教学动作，从而构成一个有监督微调数据集。

（2）知识库（用于评估规划模块）

来源：从同一真实学习平台的148门课程中创建。

用途：将课程内容切分为可作为最小学习单元的“原子动作”（如概念解释、示例、练习），用于构建候选动作池。主要用于模块化评估中的Planning模块测试，并非直接用于模型训练。

实验

（1）训练范式评估：比较不同模型（提示、推理引导提示、SFT、本文的模型）生成动作与教学目标的对齐率

（2）对框架的每个模块进行评估。包括针对学习者画像进行评估、规划模块评估（在一个包含专家标注最优动作的数据集上，对比Pxplore策略与基线模型的排序质量）、交付模块评估（对比与原始教学内容）

（3）真实世界实验：将框架部署到真实的学习环境中进行研究

评估指标

（1）对齐率：指学习者的长期/短期目标、显性/隐性动力被选出的学习动作所满足的百分比

（2）用户画像评估：采用了人工和LLM作为评判员，在兴趣识别准确性、轮廓完整性、行动与效用、可解释性四个维度进行5分制评分

（3）精确率@1：模型推荐的最高排名动作与专家标注的“最佳”动作一致的比例

（4）归一化折损累计增益@k：考察模型为每个状态推荐的前k个动作（k=1,3,5,7,10）的排序质量

（5）知识增益：比较学习前后的测试分数

（6）学习体验问卷：在学习者帮助性、多样性、相关性、个性化、清晰度、动力、理解度和满意度八个维度上进行5分制评分

7、利用思考和教学智能体优化自适应学习

解决问题

现有自适应学习路径推荐方法无法利用学习项目的文本内容进行细粒度的语义分析，导致信息利用不充分；现有方法严重依赖于在特定数据集上训练，难以适应新的数据分布；并且在学生互动日志稀疏的情况下，推荐效果不稳定。

方法

全局思考智能体：存储学生的学习历史记录，并利用知识追踪评估学生的认知状态。通过一个反思模块总结学生的学习画像（如能力、偏好），并对过去的推荐效果进行反思以调整策略。

本地教学智能体：利用教学工具（如知识图谱）提供学科先验知识，再由推荐器（基于LLM）分析学生当前回答，结合画像，从题库中选择并推荐下一个最合适的练习题目。

数据集

（1）Junyi

（2）ASSIST09

（3）TextLog

来源：作者从真实场景中收集的、包含详细题目文本内容的数据集。

规模：包含127,610名学习者、8,021道题目、698个知识概念、约168万条答题记录。数据非常稀疏，平均每位学生仅有13条记录。

用途：用于测试模型在极端稀疏数据下的性能。

预处理：拥有完整的题目文本内容。构建了知识图谱。

实验

（1）主实验：将GenAL在三个数据集上与9个基线方法进行对比

（2）消融实验

（3）路径长度影响分析：测试不同推荐路径长度（从3步到21步）下各模型的性能

（4）LLM选择：在TextLog数据集上测试Llama2-7B、Llama3-8B和GPT-3.5-turbo三种不同LLM作为框架基座的效果

评估指标

学习收益

$$E_p = \frac{E_e - E_s}{E_{sup} - E_s}$$

$E_s$是前测分数，$E_e$是后测分数，$E_{sup}$是满分。$E_p$越接近1，表示学生进步越大，学习路径推荐效果越好。

8、模糊推理的知识追踪 TOIS 2025

解决问题

现有深度学习知识追踪模型缺乏可解释性，难以解释其预测结果背后的依据；现有模型主要处理二分类（对/错）分数，难以直接应用于更常见的连续分数场景。

方法

模糊深度学习知识追踪模型

模型首先通过模糊化模块处理输入的连续答题分数（如得分0到1）；它将分数归类到几个代表性的“模糊评分集”（如很差、较差、适中、较好、很好），并计算出属于每个级别的概率值。

然后是模糊推理模块（FRM），它以“模糊规则”（例如，“如果上个知识点的熟练度是中水平，本次得分是及格水平…”）来解释学生的答题过程并进行推断。通过计算不同组合规则的影响力，得出结论，表明学生对某个知识概念的当前熟练度隶属于各“模糊熟练度”（如初学者、初学者+、高阶等）的概率。

最后,预测模块将这个连续变化的熟练状态概率转化成对下一道练习题得分的连续性预测数值。

数据集

Algebra05：来自代数学习系统2005年数据的子集，包含514名学生、172,758道练习、435个知识点和605,051条学习记录。

Algebra06：来自代数学习系统2006年数据的子集，包含1,247名学生、549,165道练习、1,701个知识点和1,805,754条学习记录。

Bridge06：来自桥梁学习系统2006年数据的子集，包含1,100名学生、129,186道练习、564个知识点和1,816,138条学习记录。

ASSISTments：来自ASSISTments在线辅导平台的数据集，包含4,163名学生、17,751道练习、149个知识点和283,105条学习记录。

所有实验均采用五折交叉验证的方法划分训练集和测试集。

实验

（1）性能对比：将提出的FDKT模型与现有的14个深度知识追踪模型在四个数据集上进行比较。

（2）统计检验：对上述性能对比结果进行Nemenyi检验

（3）内在可解释性：选取一个学生的具体答题记录，展示FDKT模型如何通过模糊评分、推理规则来计算最终预测得分

（4）可视化：通过可视化高分和低分组学生的模型内部“模糊认知特征”分布；可视化模型推断的高/低熟练度學生对应的真实答题分数分布

评估指标

MAE、RMSE

9、情感模拟的知识追踪

解决问题

传统知识追踪方法主要关注学生的认知和学习行为数据，但忽略了情感状态对学习过程和知识掌握的动态影响。此外，现有评估学生情感的方法成本高昂，难以大规模应用于在线学习数据。

方法

动态情感模拟知识追踪模型

首先，从学生非情感导向的答题行为中提取信心、兴趣、努力三个维度的情感因素。然后，通过聚类将学习过程分段，动态评估学生在每段的情感状态。接着，使用图网络模拟相邻情感状态间的连续变化，捕捉情感轨迹。最后，将模拟出的动态情感信息与学生的答题记录融合，输入到一个知识追踪模型中

数据集

ASSIST2012：规模大，学生多但学生答题序列相对较短。包含约2.7百万条记录，2.9万学生，265个知识点。

ASSISTchall：规模较小，但学生答题序列长，更考验模型对长时序数据的处理能力。包含约94万条记录，1709学生，102个知识点。

预处理：首先，过滤了数据中“问题ID”或“知识点”字段为空的记录。然后，按“开始时间”对数据排序。最后，将长序列按固定长度（100/500）分割，短序列用0填充，使所有输入序列长度统一。

实验

（1）将模型模拟的情感与一个专门构建的情感检测器进行一致性对比

（2）在多种评价指标下，将DASKT与12个先进的知识追踪基准模型在两个数据集上进行比较

（3）通过具体案例的可视化分析，展示了模型如何在学生答题过程中，结合其情感变化轨迹来动态更新知识状态

（4）消融实验

（5）通过追踪两个具体学生在答题过程中的知识状态和情感变化，深入分析了不同情感（如专注、困惑）如何具体影响模型对知识状态的判断和未来表现的预测

评估指标

（1）RMSE：衡量模型预测的“学生答对概率”与“实际答题结果”之间的平均差异。

（2）ACC：将预测概率以0.5为阈值转化为“对/错”分类，然后计算分类的正确率

（3）AUC：衡量模型将“答对”和“答错”的学生或答题记录区分开来的能力

（4）$r^2$：衡量模型预测值与学生实际答题结果之间的线性相关程度

10、开放学习环境的认知诊断框架

解决问题

认知诊断模型面对动态开放的学习环境（比如加入新学生、新题目、新知识），无法直接进行推断和预测；使用原始文本信息，不利于认知诊断，因为原始语义与学生实际答题表现难以直接结合。

方法

利用大语言模型对原始文本进行优化和总结，降低复杂性，然后进行嵌入；通过学生答题历史记录和知识关联矩阵（Q矩阵），构造答题正确率矩阵；双重融合模块，通过个性化注意力机制为不同学生、题目、知识点分配融合的权重；最后使用图神经网络编码器，进行信息整合。

数据集

论文使用了三个公开的真实世界数据集：

（1）NeurIPS2020：

来源：NeurIPS 2020教育挑战赛公开数据集，源自EEDI在线数学平台。

规模：从完整数据中随机筛选了2000名学生（每人答题数>50）、454道题、38个知识点，共计约25.8万条答题记录。

用途：用于训练、验证和测试（包括开放环境和标准场景）。

预处理：仅选择了包含题目文本内容的任务3和4的数据。

（2）XES3G5M

来源：中国K-12线上学习平台收集的大规模知识追踪基准数据集。

规模：随机筛选2000名学生（每人答题数>50）、1624道题、241个知识点（从树状结构中选取叶子节点概念），共计约20.7万条答题记录。

用途：同上。

预处理：为避免知识点层次关系导致的诊断歧义，仅使用知识点树的叶子节点。

（3）MOOCRadar

来源：哈佛大学等机构合作的MOOC平台数据集。

规模：随机筛选2000名学生（每人答题数>50）、915道题、696个知识点，共计约38.5万条答题记录。

用途：同上。

预处理：论文未提及对此数据集进行特殊预处理。

实验

（1）标准场景实验：在传统的、无新实体的完整数据集上评估DFCD与主流CDMs的性能

（2）开放环境实验：在新学生、新题目、新知识点的场景下评估，验证提出模型的有效性

（3）消融实验

（4）适配性分析：将模型与不同类型的认知诊断模型结合，验证兼容性

（5）泛化性与冷启动分析：测试数据量较少时模型的稳定性

评估指标

（1）预测精度指标：AUC、ACC、RMSE

AUC（曲线下面积）：衡量模型对学生答题正确与否的二分类预测能力

ACC（准确率）：直接衡量模型预测结果（对/错）与实际结果一致的比率

RMSE（均方根误差）（仅在冷启动实验中对比使用）：衡量模型预测的连续值与真实值（0/1）之间的偏差

（2）可解释性指标：DOA@10（前10个概念的一致性）

衡量模型推断出的学生知识点掌握水平，是否与其在同知识点相关题目上的实际答题表现逻辑一致。

11、多个视角结合增强的认知诊断

解决问题

认知诊断信息不足。造成此问题的两方面原因：现有模型的交互函数表达能力不足，丢失信息；且观测数据本身不完整（如学生只完成部分题目）。

方法

首先，融合题目文本的语义信息、学生群体的协作信息，能从一个考试或练习的视角，更精细地提取学生的潜在能力。其次，利用扩散模型的核心思想，通过对一个视角的学生能力表示添加噪声，再用另一个视角的信息作为条件去恢复它，迫使模型学习并整合不同视角（不同考试）背后的共同知识信息，从而得到更全面的学生能力评估结果。

数据集

（1）MoocRadar：来源为公开的MOOC数据集。预处理后规模为3，445名学生，918道题，159，531条互动记录。用于训练、验证和测试。

（2）Ifly：来源为科大讯飞学习机。规模为21，068名学生，9，653道题，516，613条互动记录。用于训练、验证和测试。

（3）Junyi：来源为均一教育平台。规模为21，902名学生，586道题，1，072，267条互动记录。用于训练、验证和测试。

（4）预处理：对所有数据集，首先过滤掉互动次数少于30的题目和知识点，然后过滤掉互动次数少于30的学生。最后为每个学生随机划分其互动记录（8：1：1）作为训练、验证和测试集。

实验

（1）性能预测实验：主要实验，在判断学生答题正确与否的任务上，比较DMC-CDM与多个基线模型的综合性能

（2）消融实验

（3）分析实验：分析检索相似学生数量K对结果的影响；二是在不同数据稀疏度下测试模型，验证模型在数据不足情况下的鲁棒性。

（4）应用分析实验：展示模型如何利用诊断出的学生能力，进行个性化学习推荐（如推荐难度适中的题目），验证其在真实教育场景中的实用价值。

评估指标

（1）AUC：衡量模型对正、负样本（做对/做错）的排序和区分能力。

（2）ACC：最直观的指标，指模型预测正确的所有样本（包括对和错）占总体样本的比例，衡量总体的预测正确率。

（3）**F1值 (F1 Score)**：精准率 (Precision) 和召回率 (Recall) 的调和平均数。它在关心预测“答对”这个正类样本的精确性（减少误报）和查全性（减少漏报）之间进行平衡，尤其适合评估类别可能不平衡的预测问题。

12、创造力偏好的优化 EMNLP 2025

解决问题

大语言模型的创造力不足。在创意生成任务（如故事写作、问题解决）中，其输出的新颖性、多样性和惊喜感不足；现有提升LLM创造力的方法大多只关注单一维度（如多样性）或单一任务

方法

向损失函数中注入了四个代表创造力维度的信号：新颖性（与参考文本的语义距离）、多样性（不同回答之间的语义差异）、惊喜感（回答本身的不可预测性，用困惑度衡量）和回答质量（由奖励模型打分）。为每个维度设置可调节的权重（λ），平衡和优化模型在不同创造力方面的表现

数据集

（1）MUCE

通过向全球创造力研究社区征集和从开放科学平台（OSF）手动收集而成。包含超过 245,030 个样本，覆盖 25 种不同的创意任务（如替代用途、故事生成、问题解决、隐喻创作等）和 11 种语言。

从英语部分筛选出高质量样本，构建了 MUCE-SFT（5,285个样本，用于监督微调）和 MUCE-PREF（42,058个偏好对，用于偏好优化训练）。

预处理：数据清洗（移除少于两个评分者的样本和重复项）、评分者优化（筛选掉信息量低的评分者）、分数处理（缩放到10-50）、构建高质量数据集（仅选择评分者完全一致的样本）、构建SFT数据集

（2）NOVELTYBENCH

论文使用了其手动整理的100个提示的子集。

主要用途：用于测试，评估CRPO方法在外部任务上的泛化能力。

任务类别：该基准包含需要多样性回答的四大类任务：随机性、事实知识、创意写作和主观性。

实验

（1）内部多任务评估实验：在MUCE数据集的英语“分布外”测试集（包含5类任务）上，比较所有基线模型和不同CRPO变体模型。

（2）人类评估实验：针对“句子补全”任务，进行双盲配对比较，让人类判断者评选哪个回答更具创造力。

（3）外部基准评估实验：在NOVELTYBENCH上对所有模型进行评估

评估指标

（1）多样性：一个回答与同一提示下其他所有“偏好”回答之间的平均语义距离。

（2）新颖性：一个回答内部词语的语义整合度与参考语料库的平均整合度之差的绝对值。

（3）惊喜感：回答的困惑度（由另一个参考语言模型计算）的指数。困惑度越高，惊喜感得分越高。

（4）质量：由一个在通用偏好数据上训练的奖励模型（Skywork-Reward）给出的分数。

（5）Distinctₖ（新颖性）：对于一个提示，模型生成k个回答后，通过一个训练好的“功能等价”分类器将这些回答聚类，不同类别的数量即为得分。

（6）Utilityₖ（质量/效用）：结合用户耐心模型和奖励模型分数，计算用户可能从k个回答序列中获得的累积效用。

（7）人工指标：在双盲比较中，CRPO模型的回答被人类评判者认为比基线模型更有创造力的比例。

#research

AI+教育调研（2）

https://www.jzzzhang35.top/2026/02/14/AIEdu-2/

作者

zjz

发布于

2026年2月14日

许可协议

OpenClaw部署与使用体验上一篇

AI+教育调研（1）下一篇