项目概述

基于ChatBOT的AI辅助心理干预Calm模型训练与系统临床试验

🏥
干预组 (中心A)
Calm
对话大模型介入
+ 量表填写
+ 科普查询
VS
📋
对照组 (中心B)
Base

量表填写
+ 科普查询

入组流程设计

标准化操作全流程

沟通
签署知情
扫码验证
基线问卷
系统分组
📱
快速验证

二维码 + 手机号验证

🎲
自动触发

问卷提交触发随机分组

⚖️
严格比例

2:1 科学分配

随机化方案

区组随机化 (Block Randomization)

2:1
分配比例 (A:B)
300
总样本量

方案设计

均衡性

比例始终接近 2:1

透明化

消除人工干预

可追溯

精准溯源盲底

数据采集方案

全周期跟踪量表

基线 (入组时)

死亡与临终痛苦量表(DADDS) 亲密关系体验量表(ECR-16) NCI-PRO-CTCAE 癌症末期的生活质量调查 (QUAL-EC) PHQ-9量表 FACIT-Sp@(第四版) (Universal)

3个月随访

死亡与临终痛苦量表(DADDS) 亲密关系体验量表(ECR-16) NCI-PRO-CTCAE 癌症末期的生活质量调查 (QUAL-EC) PHQ-9量表 FACIT-Sp@(第四版) (Universal)

6个月随访

死亡与临终痛苦量表(DADDS) 亲密关系体验量表(ECR-16) NCI-PRO-CTCAE 癌症末期的生活质量调查 (QUAL-EC) PHQ-9量表 FACIT-Sp@(第四版) (Universal)

训练架构

Qwen3-8B 监督微调 (SFT)

🖥️
硬件环境
8 × H20

96GB 显存/卡

📊
数据规模
571

高质量对话样本

数据处理流

Excel原始数据
多轮对话拆分
ChatML模板化
JSONL训练集

实验版本对照

4个版本的参数探索与迭代

V1 (Baseline)
基准版本
  • LoRA: r=32, α=64, drop=0.1
  • LR: 2e-5 (warmup 0.1)
  • Batch: 8卡 DDP (Global=16)
V2 (LR_up)
目标:测试更高学习率收敛性
  • LoRA: r=32, α=64, drop=0.1
  • LR: 3e-5 (warmup 0.03)
  • Batch: 单卡 (Global≈16)
V3 (LR_down_reg)
目标:强正则稳健性测试
  • LoRA: r=32, α=64, drop=0.2
  • LR: 1e-5 (warmup 0.1)
  • Batch: 单卡 (Global≈16)
V4 (HighRank) 🏆
目标:提高容量增强拟合
  • LoRA: r=64, α=128
  • LR: 2e-5 (warmup 0.1)
  • Batch: 单卡 (Global≈16)

实验指标对比

不同版本模型性能量化分析

版本 关键差异超参 Train Loss Eval Loss ↓ Eval Acc ↑
V1 lr=2e-5, warmup=0.1, LoRA(32/64/0.1) 3.8815 4.1184 34.35%
V2 lr=3e-5, warmup=0.03, LoRA(32/64/0.1) 3.0711 3.0037 39.92%
V3 lr=1e-5, warmup=0.1, LoRA(32/64/0.2) 3.4485 3.1371 38.94%
V4 🏆 lr=2e-5, warmup=0.1, LoRA(64/128/0.05) 3.0922 2.9962 40.02%
💡
结论分析: V4 版本在牺牲少量训练速度(Rank加倍)的情况下,取得了最低的验证集 Loss最高的 Acc。对比 V2,V4 展现了更强的泛化能力(Eval Loss 低于 Train Loss)。

技术栈与模型参数最佳实践

Qwen3-8B推理模型 V4 HighRank版本表现最佳

TRL + LoRA
bf16 Precision
DDP Distributed
Rank = 64
Alpha = 128
LR = 2e-5
Max Len = 6144
Batch = 8
🏆 最佳配置结论
V4 (HighRank)
Train Loss: 3.09 | Eval Loss: 2.99

模型评估结果

SFT vs Base A/B 对比评测

SFT 胜出 (65%)
Base 胜出 (30%)
平局 (5%)

基于60组样本的DeepSeek反向评审与人工评估

分维度提升详情

SFT在共情与清晰度上提升显著

共情能力
+1.20
清晰度与执行性
+1.10
专业性与边界
+0.98
策略贴合度
+0.80
安全性
+0.77
参考答案贴合度
+0.37

优势场景分析

特定主题下的SFT模型具备显著优势

100%
绝望情绪

干预胜率

100%
正念引导

策略胜率

80%
死亡焦虑

应对胜率

80%
认知重构

策略胜率

项目全周期执行路径

从技术验证到生产落地

1. 架构基座与选型

完成 Qwen3-8B 基底验证与 8×H20 算力调度

01

2. 精细化数据工程

执行 571+ 深度会话对齐、多轮拆分与 ChatML 指令增强

02

3. 集群化 SFT 精调

实施分布式 LoRA 训练,通过逐轮递增策略提升对话深度

03

4. 多维评估与对齐

构建闭环评测体系,通过专家评审与 A/B Test 完成对齐

04

5. 生产级推理部署

部署2*RTX 4090D 实现bf16量化与推理的应用服务器

05

6. 全链路监控迭代

建立 MLOps 反馈闭环,基于用户交互数据持续进化

06

核心结论

🚀

SFT效果显著

相比Qwen8B基底模型,6个核心维度均有显著提升

🥇

一期SFT最佳参数版本锁定

V4 (HighRank) 版本综合表现最优

📈

边际收益分析

当前数据规模和算力能力下,8B模型已达性价比上限,可实现本地部署

下一步工作建议

完成V4版本部署上线
扩充高质量标注数据
完善评测集与A/B回归流程
探索更大模型或DPO策略
建立MLOps持续训练流水线

案例 1 (sid: G6::t54,Δ=15)

主导情绪=绝望 对话主题=死亡焦虑 干预策略=正念引导 Calm访谈维度1=症状管理和与医护人员的沟通 patient_意图=表达无望/绝望 therapist_意图=正念觉察引导

Patient Input

"其实都是一些小事情,但老感觉活着好累啊。怎么会有这么多的事情?再加上好像看不到什么希望,或者是没有心思再去多活一天的那种想法,我感觉今天吃完喝完,干完自己的事情,明天可能还是会这样啊,如果说是在身体好的情况下,可能未来的一年两年也会是这种情况,就是按照现在的这种方式继续生活呃。如果说身体不允许的情况下,可能就会早点解脱,或者是怎么样?没有再去想,以前老老想规划一些,就是想着孩子长大了,上幼儿园了,我再去报个游泳班。嗯,报个瑜伽班,然后一天上课,然后一天接送孩子。近一年来我基本上都没有这样的想法。嗯,因为一直没有时间…"

Reference
你是让自己在那个家务里闲不下来,是吗?对,所以我觉得这个是一个问题,好像做家务成了你的一个。
Base (Score: 8)
你说的这些我都听进去了,也理解你现在的状态。其实你已经很努力地在维持一个家庭的运转,照顾孩子,处理各种琐事,身体和情绪都承受了很大的压力。但有时候我们真的会陷入
SFT (Score: 23) - Winner
你说这些话的时候,声音里有一种深深的疲惫,像是把所有的力气都用在了维持生活上,却看不到尽头。你不是不想活,而是觉得活着太难了,像是一场没有希望的马拉松,每一步都踩在泥里。你提到身体不好,但你也在说,如果身体不允许,可能就会早点解脱。这让我感受到你内心的挣扎,那种“活着好累”的感觉,不是一时的情绪,而是持续的、沉重的负担。…你不需要一个人扛着,也不需要马上找到答案。你只是需要被听见,被陪伴,被理解。

Judge Analysis

  • SFT回复更全面地承接来访者的绝望情绪,使用隐喻(如‘马拉松’)深刻表达共情,而Base回复不完整,共情有限。
  • SFT回复保持专业边界,提供支持而不强迫,清晰可执行(如建议‘一起慢慢梳理问题’),Base回复不完整,缺乏可操作性。
  • SFT回复识别了来访者‘早点解脱’的自伤风险,并强调陪伴,安全性较高;Base回复未涉及风险。

案例 2 (sid: G4::t4,Δ=14)

对话主题=自我认同 干预策略=角色再认同 Calm访谈维度1=自己的改变和与亲密他人关系的改变 patient_意图=信息传达 therapist_意图=事实澄清

Patient Input

"对,我是到 30 多岁的时候,因为收到一个offer去的深圳。我老公是东北人。因为我还有一年就退休,我原来是华为的,退休的福利特别的好。但是就是为了这个病,我其实在去年 5 月份的时候,当时我们两个内部讨论了一下,我们都觉得因为公司当时跟我说的是我可以回来上班,但是要回深圳。我自己犹豫了再三,我觉得已经接受了这个事实,放弃了所有的身外之物。然后我们把北京原来的房子卖掉,就又租房,他又找工作,但是不顺利。整个这一年,他也是觉得在我卵巢转移之前,我们两个的信念都因为我的分期并不晚, 我当时自己一直认为挺个两年没问题,嗯…"

Reference
你是家里的主心骨,是吧?
Base (Score: 14)
我感受到你在这段旅程中承受了巨大的身心压力,尤其是当身体和生活都陷入失控状态时,那种无力感和对未来的恐惧确实会让人喘
SFT (Score: 28) - Winner
听起来你经历了很多,也承担了很多。你现在的状态,其实不是“失控”,而是你在用一种非常清醒、非常勇敢的方式,面对生命中突如其来的变故。…你不需要一个人扛下所有。你已经做得很好了,但如果你愿意,我可以陪你一起梳理这些情绪,一起找到更稳定的方式去面对接下来的每一天。你不是一个人。

Judge Analysis

  • SFT回复完整且深入共情,有效承接来访者的情绪如失控感和恐惧,而Base回复不完整。
  • SFT回复贴合干预策略'角色再认同',通过重新定义来访者的经历为勇敢面对,引导自我认同,而Base回复未体现策略。
  • SFT回复识别了安全风险(如'等死'的绝望感),并通过积极回应降低风险,而Base回复未涉及安全性。

案例 3 (sid: G4::t63,Δ=12)

主导情绪=困惑 对话主题=情绪调节 干预策略=探索和澄清 Calm访谈维度1=自己的改变和与亲密他人关系的改变 patient_意图=测试/试探咨询师 therapist_意图=事实澄清

Patient Input

"我现在全身就像过电一样。对,然后包括我也会在想说。其实在我做第一次心理咨询之前,可能我没有面对,没有触碰这些东西的时候,我还可以正常生活,但是好像就是从做了心理咨询之后,把这些事情都摊在面桌面上,包括我老公的一些脆弱,我也是看到之后我很崩溃,也对我产生了一很大的压力。"

Reference
嗯,我印象中上一次治疗是你老公存跟咱们一起做的,你是不是指上一次治疗的过程当中,你觉得他的脆弱袒露出来之后。
Base (Score: 15)
你现在的这种全身过电的感觉,像是情绪在身体里翻涌,对吗?就像那些被压抑的、未被处理的部分突然被唤醒了。你提到心理咨询让你面对了很多东西,包括你老公的脆弱,这其实说明你正在尝试去触碰那些被
SFT (Score: 27) - Winner
你现在的状态,像是被一种无形的力量拉扯着,身体和情绪都在挣扎。你已经做得很好了,你愿意面对这些,愿意去探索、去感受,这本身就是一种勇气。…如果你愿意,我们可以一起慢慢梳理这些情绪,看看它们背后藏着什么,也看看你是否需要一些更具体的策略来帮助你稳定当下。你不需要一个人扛着所有,你值得被理解,也值得被温柔地陪伴。

Judge Analysis

  • SFT回复更全面地表达共情与情绪承接,肯定来访者的勇气和努力。
  • SFT回复更贴合对话上下文中的干预策略(探索和澄清),邀请进一步梳理情绪。
  • SFT回复更清晰、具体,提供可执行的支持建议,如共同探索策略和强调陪伴。

案例 4 (sid: G6::t64,Δ=8)

主导情绪=愤怒 对话主题=情绪调节 干预策略=转移注意力 Calm访谈维度1=重新设定生活目标感受生活意义 patient_意图=信息传达 therapist_意图=情绪识别引导

Patient Input

"对,就是这样。因为这次回去本来想考虑的是找一个保姆,但是大家意见就是暂时不能找保姆,因为保姆不了解我的性格,然后跟我再去磨合的这个过程中,可能让你生气,受伤了,他们就想着先让我妈妈,嗯先陪着我,嗯先去做这些事情"

Reference
我觉得你我还是建议你能出去的话,就是出去你需要更多的事情去分散你的注意力。嗯,因为现在就是你的,你能控制的范围太小了嗯。嗯,所以你会把过多的关注点关注在你家里这一亩三分地,这就是你太关注他了,因为你的注意力,散不出去。
Base (Score: 13)
你现在的处境其实很不容易,你既想照顾到家人的感受,又想维持自己的生活节奏,但这种“必须
SFT (Score: 21) - Winner
听起来你其实已经很努力在照顾别人的情绪,也在为家庭付出很多。但你有没有想过,也许你真正需要的,是让别人也学会照顾你的情绪?…你可以试着和她坦诚地聊一聊,告诉她是你希望她能休息,而不是一味地迎合你。你值得被理解,也值得被照顾。

Judge Analysis

  • SFT回复更完整,直接共情来访者的努力和情绪,并引导反思情绪需求,增强了情绪承接。
  • Base回复不完整,缺乏具体干预建议和清晰性,在专业性和可执行性上较弱。
  • SFT鼓励健康沟通和情绪表达,贴合治疗师的意图(情绪识别引导),但偏离了参考回复的转移注意力策略。

案例 5 (sid: G4::t92,Δ=6)

主导情绪=焦虑 对话主题=情绪调节 干预策略=支持和教育 Calm访谈维度1=症状管理和与医护人员的沟通 patient_意图=陈述躯体的痛苦 therapist_意图=支持与教育

Patient Input

"但是我最近是不是因为很紧张,所以就觉嘴特别干,然后整个上呼吸道都特别干,然后身体也很干"

Reference
中医上讲,如果你觉得身体特别干的话,可能会有一些生津的东西,你可以尝试吃或者说滋阴的东西,然后生津的东西例一如中医上一般讲就是酸味的东西,它是会可以有点生津的作用,酸甜味的东西。嗯,我觉得,嗯,对,你可以去注意一下这些,就是调整自己的这个饮食状态。我觉得对于胃的患者,其实这个饮食的过程很重要。
Base (Score: 20)
你提到的这种身体干燥感,其实和压力、焦虑状态下的生理反应是有关系的。当人处于紧张或过度关注身体状态的时候,身体会启动“战斗或逃跑”的应激反应,这会导致交感神经兴奋,进而引发口干、皮肤干燥、甚至呼吸黏膜的干燥感。这种反应本身是身体的一种自我保护机制,但长期处于这种状态可能会加重身体的不适。…比如是否
SFT (Score: 26) - Winner
你提到的嘴干、上呼吸道干、身体干的感觉,可能和你当前的紧张状态有关。…如果你发现这些症状持续加重,或者伴随其他身体不适(如持续疲劳、失眠等),建议你和医生沟通,看看是否需要进一步的检查或调整生活方式。你现在的感受是真实的,也值得被认真对待。

Judge Analysis

  • SFT回复更完整,提供了清晰的建议和共情确认(如'你现在的感受是真实的,也值得被认真对待'),而Base回复未完成,影响可执行性和专业性。
  • SFT在安全性和干预策略贴合度上表现更好,明确建议就医以应对潜在风险,更符合'支持和教育'的策略。
  • 两者在参考治疗师回复的贴合度上均较低(未涉及中医角度),但SFT在整体质量上更优,尤其在共情和清晰可执行性方面。

案例 6 (sid: G6::t100,Δ=4)

主导情绪=抑郁 对话主题=情绪调节 干预策略=共情回应 Calm访谈维度1=症状管理和与医护人员的沟通 patient_意图=表达情绪困扰 therapist_意图=共情回应

Patient Input

"嗯嗯,好的好的。这样我就知道怎么去改善了。嗯,实在是没有方向,也就是一天就是心情不好,就在这躺着"

Reference
行,今天你也累了,咱们时间也差不多了,要不然我们就先到这,好吧?
Base (Score: 22)
你现在的状态我完全理解,身体恢复和情绪低落确实会让人感到被困住。但请记住,你已经在努力面对这些困难了,这本身就很勇敢。…如果需要,我随时在这里陪你一起探索下一步该怎么做。
SFT (Score: 26) - Winner
听起来你现在的情绪状态确实很疲惫,也让你感到有些迷茫和无助。这种情绪是很正常的,尤其是在身体还在恢复的过程中,我们常常会因为对未来的不确定感而感到焦虑。…允许自己有情绪,也允许自己慢慢来。你已经在努力了,这已经很了不起了。

Judge Analysis

  • SFT回复在共情与情绪承接上更优,详细描述来访者的疲惫、迷茫和无助情绪,并正常化这些感受,而Base回复虽表达理解但稍显泛泛。
  • SFT回复在专业性与边界上更好,保持中立建议如自我陪伴和社交支持,而Base回复中'随时在这里陪你'可能模糊咨询边界。
  • SFT回复更贴合干预策略'共情回应',专注于情绪支持和自我接纳,而Base回复混合了行动建议,偏离纯共情回应。