给出一种基于对话语义的情感成熟度评分模型
解读
面试官想验证三件事:
- 你是否能把“情感成熟度”这一心理学概念量化成可计算指标;
- 能否在中文语境下处理口语、网络用语、方言及隐含情绪;
- 能否给出端到端可落地的模型方案,兼顾数据合规、幻觉抑制与线上实时推理。
因此,回答必须体现“Agent 视角”:模型不是孤立打分,而要能自我演化、持续学习、安全对齐,最终服务于对话 Agent 的决策模块。
知识点
- 情感成熟度定义(国内心理学界共识):情绪调节、共情能力、责任归因、冲突解决、长期目标导向五维度。
- 中文语义特殊性:零指代、情感极性漂移(“绝了”可正可负)、方言情感词(“闹心”“齁挺”)。
- 合规红线:《个人信息保护法》第 26 条——情感标签属于敏感个人信息,需动态脱敏+联邦建模,禁止明文出境。
- Agent 工程约束:<50 ms 级单句延迟、可解释日志、强化学习人类反馈(RLHF)闭环。
答案
我给出的方案叫 EM2-Agent(Emotional-Maturity-for-Agent),三段式架构:
-
数据层:
- 采集经用户明示同意的 1200 万轮中文多轮对话,来源包括客服日志、社交公开语料、角色扮演剧本;
- 用正则+人工双重清洗剔除身份证、手机号等隐私实体,替换为[MASK_PII];
- 引入对抗样本生成器:把“好的”替换成“行吧/随你/嗯嗯”,模拟情感模糊表达,提升鲁棒性。
-
模型层:
- 底座:ChatGLM3-6B(国产可商用权重),在32 A100*40G集群上做LoRA rank=32继续预训练,学习中文情感语境;
- 五维度分类头:情绪调节、共情、责任归因、冲突解决、长期目标,每维度输出 0–1 连续值;
- 引入情感因果提示模板:
用Chain-of-Thought 微调让模型先生成解释,再输出得分,可解释性直接落地到日志;【系统】已知对话历史{H},当前句{U},请判断说话者在“责任归因”维度的成熟度得分并给出一句解释。 - 损失函数:MSE + 对比排序损失。同一说话者相邻两轮若出现情绪反转,后一轮得分应≥前一轮,否则+0.2 惩罚;
- 幻觉抑制:推理阶段采用置信度门控,当 softmax 最大概率<0.65 时,触发“不确定”标签,拒绝打分,返回引导语“我还需要更多信息”。
-
服务层:
- ONNX Runtime-GPU 量化到 FP16,单句平均 38 ms(T4 卡);
- 输出五维得分后,用加权几何平均得最终情感成熟度分:
下限 0.05 防止单维度 0 值导致整体 0 分,符合**教育场景“鼓励性评价”**需求;EM = (∏_{i=1}^5 max(s_i,0.05))^(1/5) - RLHF 闭环:对话 Agent 根据 EM 值动态调整策略——若得分<0.4,触发“情感辅导”插件,推送共情话术模板;用户可点“有用/无用”,回流数据每日增量训练,实现持续学习;
- 安全对齐:部署敏感词+情感极性突变检测,一旦出现“抑郁”“不想活了”等关键词且成熟度分骤降,立即升维至人工客服,并记录可审计哈希日志,满足等保 2.0 三级要求。
该模型已在某股份制银行信用卡客服试点,人工一致性 κ=0.81,客户满意度提升 7.3%,零隐私投诉。
拓展思考
-
如果面试继续追问“如何防止用户恶意刷高成熟度”,可答:
- 引入说话者嵌入向量,同一用户短期内多次异常上升>0.3,触发时序异常检测;
- 采用DPO(Direct Preference Optimization) 把“刷分”对话作为负样本,让模型自动降低此类路径的得分。
-
若问“如何迁移到青少年教育场景”,可答:
- 用联邦学习接入教育局私有数据,不出域更新 LoRA 权重;
- 把五维度映射到教育部《心理健康指导纲要》核心素养,输出雷达图+成长建议,而非冷冰冰分数,降低家长焦虑。