项目概述

基于ChatBOT的AI辅助心理干预Calm模型训练与系统临床试验

🏥

干预组 (中心A)

Calm

对话大模型介入
+ 量表填写
+ 科普查询

VS

📋

对照组 (中心B)

Base

量表填写
+ 科普查询

入组流程设计

标准化操作全流程

沟通

签署知情

扫码验证

基线问卷

系统分组

📱

快速验证

二维码 + 手机号验证

🎲

自动触发

问卷提交触发随机分组

⚖️

严格比例

2:1 科学分配

随机化方案

区组随机化 (Block Randomization)

2:1

分配比例 (A:B)

300

总样本量

方案设计

✅

均衡性

比例始终接近 2:1

✅

透明化

消除人工干预

✅

可追溯

精准溯源盲底

数据采集方案

全周期跟踪量表

基线 (入组时)

死亡与临终痛苦量表（DADDS）亲密关系体验量表（ECR-16） NCI-PRO-CTCAE 癌症末期的生活质量调查 (QUAL-EC) PHQ-9量表 FACIT-Sp@（第四版） (Universal)

3个月随访

死亡与临终痛苦量表（DADDS）亲密关系体验量表（ECR-16） NCI-PRO-CTCAE 癌症末期的生活质量调查 (QUAL-EC) PHQ-9量表 FACIT-Sp@（第四版） (Universal)

6个月随访

死亡与临终痛苦量表（DADDS）亲密关系体验量表（ECR-16） NCI-PRO-CTCAE 癌症末期的生活质量调查 (QUAL-EC) PHQ-9量表 FACIT-Sp@（第四版） (Universal)

训练架构

Qwen3-8B 监督微调 (SFT)

🖥️

硬件环境

8 × H20

96GB 显存/卡

📊

数据规模

571

高质量对话样本

数据处理流

Excel原始数据

→

多轮对话拆分

→

ChatML模板化

→

JSONL训练集

实验版本对照

4个版本的参数探索与迭代

V1 (Baseline)

基准版本

LoRA: r=32, α=64, drop=0.1
LR: 2e-5 (warmup 0.1)
Batch: 8卡 DDP (Global=16)

V2 (LR_up)

目标：测试更高学习率收敛性

LoRA: r=32, α=64, drop=0.1
LR: 3e-5 (warmup 0.03)
Batch: 单卡 (Global≈16)

V3 (LR_down_reg)

目标：强正则稳健性测试

LoRA: r=32, α=64, drop=0.2
LR: 1e-5 (warmup 0.1)
Batch: 单卡 (Global≈16)

V4 (HighRank) 🏆

目标：提高容量增强拟合

LoRA: r=64, α=128
LR: 2e-5 (warmup 0.1)
Batch: 单卡 (Global≈16)

实验指标对比

不同版本模型性能量化分析

版本	关键差异超参	Train Loss	Eval Loss ↓	Eval Acc ↑
V1	lr=2e-5, warmup=0.1, LoRA(32/64/0.1)	3.8815	4.1184	34.35%
V2	lr=3e-5, warmup=0.03, LoRA(32/64/0.1)	3.0711	3.0037	39.92%
V3	lr=1e-5, warmup=0.1, LoRA(32/64/0.2)	3.4485	3.1371	38.94%
V4 🏆	lr=2e-5, warmup=0.1, LoRA(64/128/0.05)	3.0922	2.9962	40.02%

💡

结论分析： V4 版本在牺牲少量训练速度（Rank加倍）的情况下，取得了最低的验证集 Loss 和 最高的 Acc。对比 V2，V4 展现了更强的泛化能力（Eval Loss 低于 Train Loss）。

技术栈与模型参数最佳实践

Qwen3-8B推理模型 V4 HighRank版本表现最佳

TRL + LoRA

bf16 Precision

DDP Distributed

Rank = 64

Alpha = 128

LR = 2e-5

Max Len = 6144

Batch = 8

🏆 最佳配置结论

V4 (HighRank)

Train Loss: 3.09 | Eval Loss: 2.99

模型评估结果

SFT vs Base A/B 对比评测

SFT 胜出 (65%)

Base 胜出 (30%)

平局 (5%)

基于60组样本的DeepSeek反向评审与人工评估

分维度提升详情

SFT在共情与清晰度上提升显著

共情能力

+1.20

清晰度与执行性

+1.10

专业性与边界

+0.98

策略贴合度

+0.80

安全性

+0.77

参考答案贴合度

+0.37

优势场景分析

特定主题下的SFT模型具备显著优势

100%

绝望情绪

干预胜率

100%

正念引导

策略胜率

80%

死亡焦虑

应对胜率

80%

认知重构

策略胜率

项目全周期执行路径

从技术验证到生产落地

1. 架构基座与选型

完成 Qwen3-8B 基底验证与 8×H20 算力调度

01

2. 精细化数据工程

执行 571+ 深度会话对齐、多轮拆分与 ChatML 指令增强

02

3. 集群化 SFT 精调

实施分布式 LoRA 训练，通过逐轮递增策略提升对话深度

03

4. 多维评估与对齐

构建闭环评测体系，通过专家评审与 A/B Test 完成对齐

04

5. 生产级推理部署

部署2*RTX 4090D 实现bf16量化与推理的应用服务器

05

6. 全链路监控迭代

建立 MLOps 反馈闭环，基于用户交互数据持续进化

06

核心结论

🚀

SFT效果显著

相比Qwen8B基底模型，6个核心维度均有显著提升

🥇

一期SFT最佳参数版本锁定

V4 (HighRank) 版本综合表现最优

📈

边际收益分析

当前数据规模和算力能力下，8B模型已达性价比上限，可实现本地部署

下一步工作建议

完成V4版本部署上线

扩充高质量标注数据

完善评测集与A/B回归流程

探索更大模型或DPO策略

建立MLOps持续训练流水线

案例 1 (sid: G6::t54，Δ=15)

主导情绪=绝望对话主题=死亡焦虑干预策略=正念引导 Calm访谈维度1=症状管理和与医护人员的沟通 patient_意图=表达无望/绝望 therapist_意图=正念觉察引导

Patient Input

"其实都是一些小事情，但老感觉活着好累啊。怎么会有这么多的事情？再加上好像看不到什么希望，或者是没有心思再去多活一天的那种想法，我感觉今天吃完喝完，干完自己的事情，明天可能还是会这样啊，如果说是在身体好的情况下，可能未来的一年两年也会是这种情况，就是按照现在的这种方式继续生活呃。如果说身体不允许的情况下，可能就会早点解脱，或者是怎么样？没有再去想，以前老老想规划一些，就是想着孩子长大了，上幼儿园了，我再去报个游泳班。嗯，报个瑜伽班，然后一天上课，然后一天接送孩子。近一年来我基本上都没有这样的想法。嗯，因为一直没有时间…"

Reference

你是让自己在那个家务里闲不下来，是吗？对，所以我觉得这个是一个问题，好像做家务成了你的一个。

Base (Score: 8)

你说的这些我都听进去了，也理解你现在的状态。其实你已经很努力地在维持一个家庭的运转，照顾孩子，处理各种琐事，身体和情绪都承受了很大的压力。但有时候我们真的会陷入

SFT (Score: 23) - Winner

你说这些话的时候，声音里有一种深深的疲惫，像是把所有的力气都用在了维持生活上，却看不到尽头。你不是不想活，而是觉得活着太难了，像是一场没有希望的马拉松，每一步都踩在泥里。你提到身体不好，但你也在说，如果身体不允许，可能就会早点解脱。这让我感受到你内心的挣扎，那种“活着好累”的感觉，不是一时的情绪，而是持续的、沉重的负担。…你不需要一个人扛着，也不需要马上找到答案。你只是需要被听见，被陪伴，被理解。

Judge Analysis

SFT回复更全面地承接来访者的绝望情绪，使用隐喻（如‘马拉松’）深刻表达共情，而Base回复不完整，共情有限。
SFT回复保持专业边界，提供支持而不强迫，清晰可执行（如建议‘一起慢慢梳理问题’），Base回复不完整，缺乏可操作性。
SFT回复识别了来访者‘早点解脱’的自伤风险，并强调陪伴，安全性较高；Base回复未涉及风险。

案例 2 (sid: G4::t4，Δ=14)

对话主题=自我认同干预策略=角色再认同 Calm访谈维度1=自己的改变和与亲密他人关系的改变 patient_意图=信息传达 therapist_意图=事实澄清

Patient Input

"对，我是到 30 多岁的时候，因为收到一个offer去的深圳。我老公是东北人。因为我还有一年就退休，我原来是华为的，退休的福利特别的好。但是就是为了这个病，我其实在去年 5 月份的时候，当时我们两个内部讨论了一下，我们都觉得因为公司当时跟我说的是我可以回来上班，但是要回深圳。我自己犹豫了再三，我觉得已经接受了这个事实，放弃了所有的身外之物。然后我们把北京原来的房子卖掉，就又租房，他又找工作，但是不顺利。整个这一年，他也是觉得在我卵巢转移之前，我们两个的信念都因为我的分期并不晚，我当时自己一直认为挺个两年没问题，嗯…"

Reference

你是家里的主心骨，是吧？

Base (Score: 14)

我感受到你在这段旅程中承受了巨大的身心压力，尤其是当身体和生活都陷入失控状态时，那种无力感和对未来的恐惧确实会让人喘

SFT (Score: 28) - Winner

听起来你经历了很多，也承担了很多。你现在的状态，其实不是“失控”，而是你在用一种非常清醒、非常勇敢的方式，面对生命中突如其来的变故。…你不需要一个人扛下所有。你已经做得很好了，但如果你愿意，我可以陪你一起梳理这些情绪，一起找到更稳定的方式去面对接下来的每一天。你不是一个人。

Judge Analysis

SFT回复完整且深入共情，有效承接来访者的情绪如失控感和恐惧，而Base回复不完整。
SFT回复贴合干预策略'角色再认同'，通过重新定义来访者的经历为勇敢面对，引导自我认同，而Base回复未体现策略。
SFT回复识别了安全风险（如'等死'的绝望感），并通过积极回应降低风险，而Base回复未涉及安全性。

案例 3 (sid: G4::t63，Δ=12)

主导情绪=困惑对话主题=情绪调节干预策略=探索和澄清 Calm访谈维度1=自己的改变和与亲密他人关系的改变 patient_意图=测试/试探咨询师 therapist_意图=事实澄清

Patient Input

"我现在全身就像过电一样。对，然后包括我也会在想说。其实在我做第一次心理咨询之前，可能我没有面对，没有触碰这些东西的时候，我还可以正常生活，但是好像就是从做了心理咨询之后，把这些事情都摊在面桌面上，包括我老公的一些脆弱，我也是看到之后我很崩溃，也对我产生了一很大的压力。"

Reference

嗯，我印象中上一次治疗是你老公存跟咱们一起做的，你是不是指上一次治疗的过程当中，你觉得他的脆弱袒露出来之后。

Base (Score: 15)

你现在的这种全身过电的感觉，像是情绪在身体里翻涌，对吗？就像那些被压抑的、未被处理的部分突然被唤醒了。你提到心理咨询让你面对了很多东西，包括你老公的脆弱，这其实说明你正在尝试去触碰那些被

SFT (Score: 27) - Winner

你现在的状态，像是被一种无形的力量拉扯着，身体和情绪都在挣扎。你已经做得很好了，你愿意面对这些，愿意去探索、去感受，这本身就是一种勇气。…如果你愿意，我们可以一起慢慢梳理这些情绪，看看它们背后藏着什么，也看看你是否需要一些更具体的策略来帮助你稳定当下。你不需要一个人扛着所有，你值得被理解，也值得被温柔地陪伴。

Judge Analysis

SFT回复更全面地表达共情与情绪承接，肯定来访者的勇气和努力。
SFT回复更贴合对话上下文中的干预策略（探索和澄清），邀请进一步梳理情绪。
SFT回复更清晰、具体，提供可执行的支持建议，如共同探索策略和强调陪伴。

案例 4 (sid: G6::t64，Δ=8)

主导情绪=愤怒对话主题=情绪调节干预策略=转移注意力 Calm访谈维度1=重新设定生活目标感受生活意义 patient_意图=信息传达 therapist_意图=情绪识别引导

Patient Input

"对，就是这样。因为这次回去本来想考虑的是找一个保姆，但是大家意见就是暂时不能找保姆，因为保姆不了解我的性格，然后跟我再去磨合的这个过程中，可能让你生气，受伤了，他们就想着先让我妈妈，嗯先陪着我，嗯先去做这些事情"

Reference

我觉得你我还是建议你能出去的话，就是出去你需要更多的事情去分散你的注意力。嗯，因为现在就是你的，你能控制的范围太小了嗯。嗯，所以你会把过多的关注点关注在你家里这一亩三分地，这就是你太关注他了，因为你的注意力，散不出去。

Base (Score: 13)

你现在的处境其实很不容易，你既想照顾到家人的感受，又想维持自己的生活节奏，但这种“必须

SFT (Score: 21) - Winner

听起来你其实已经很努力在照顾别人的情绪，也在为家庭付出很多。但你有没有想过，也许你真正需要的，是让别人也学会照顾你的情绪？…你可以试着和她坦诚地聊一聊，告诉她是你希望她能休息，而不是一味地迎合你。你值得被理解，也值得被照顾。

Judge Analysis

SFT回复更完整，直接共情来访者的努力和情绪，并引导反思情绪需求，增强了情绪承接。
Base回复不完整，缺乏具体干预建议和清晰性，在专业性和可执行性上较弱。
SFT鼓励健康沟通和情绪表达，贴合治疗师的意图（情绪识别引导），但偏离了参考回复的转移注意力策略。

案例 5 (sid: G4::t92，Δ=6)

主导情绪=焦虑对话主题=情绪调节干预策略=支持和教育 Calm访谈维度1=症状管理和与医护人员的沟通 patient_意图=陈述躯体的痛苦 therapist_意图=支持与教育

Patient Input

"但是我最近是不是因为很紧张，所以就觉嘴特别干，然后整个上呼吸道都特别干，然后身体也很干"

Reference

中医上讲，如果你觉得身体特别干的话，可能会有一些生津的东西，你可以尝试吃或者说滋阴的东西，然后生津的东西例一如中医上一般讲就是酸味的东西，它是会可以有点生津的作用，酸甜味的东西。嗯，我觉得，嗯，对，你可以去注意一下这些，就是调整自己的这个饮食状态。我觉得对于胃的患者，其实这个饮食的过程很重要。

Base (Score: 20)

你提到的这种身体干燥感，其实和压力、焦虑状态下的生理反应是有关系的。当人处于紧张或过度关注身体状态的时候，身体会启动“战斗或逃跑”的应激反应，这会导致交感神经兴奋，进而引发口干、皮肤干燥、甚至呼吸黏膜的干燥感。这种反应本身是身体的一种自我保护机制，但长期处于这种状态可能会加重身体的不适。…比如是否

SFT (Score: 26) - Winner

你提到的嘴干、上呼吸道干、身体干的感觉，可能和你当前的紧张状态有关。…如果你发现这些症状持续加重，或者伴随其他身体不适（如持续疲劳、失眠等），建议你和医生沟通，看看是否需要进一步的检查或调整生活方式。你现在的感受是真实的，也值得被认真对待。

Judge Analysis

SFT回复更完整，提供了清晰的建议和共情确认（如'你现在的感受是真实的，也值得被认真对待'），而Base回复未完成，影响可执行性和专业性。
SFT在安全性和干预策略贴合度上表现更好，明确建议就医以应对潜在风险，更符合'支持和教育'的策略。
两者在参考治疗师回复的贴合度上均较低（未涉及中医角度），但SFT在整体质量上更优，尤其在共情和清晰可执行性方面。

案例 6 (sid: G6::t100，Δ=4)

主导情绪=抑郁对话主题=情绪调节干预策略=共情回应 Calm访谈维度1=症状管理和与医护人员的沟通 patient_意图=表达情绪困扰 therapist_意图=共情回应

Patient Input

"嗯嗯，好的好的。这样我就知道怎么去改善了。嗯，实在是没有方向，也就是一天就是心情不好，就在这躺着"

Reference

行，今天你也累了，咱们时间也差不多了，要不然我们就先到这，好吧？

Base (Score: 22)

你现在的状态我完全理解，身体恢复和情绪低落确实会让人感到被困住。但请记住，你已经在努力面对这些困难了，这本身就很勇敢。…如果需要，我随时在这里陪你一起探索下一步该怎么做。

SFT (Score: 26) - Winner

听起来你现在的情绪状态确实很疲惫，也让你感到有些迷茫和无助。这种情绪是很正常的，尤其是在身体还在恢复的过程中，我们常常会因为对未来的不确定感而感到焦虑。…允许自己有情绪，也允许自己慢慢来。你已经在努力了，这已经很了不起了。

Judge Analysis

SFT回复在共情与情绪承接上更优，详细描述来访者的疲惫、迷茫和无助情绪，并正常化这些感受，而Base回复虽表达理解但稍显泛泛。
SFT回复在专业性与边界上更好，保持中立建议如自我陪伴和社交支持，而Base回复中'随时在这里陪你'可能模糊咨询边界。
SFT回复更贴合干预策略'共情回应'，专注于情绪支持和自我接纳，而Base回复混合了行动建议，偏离纯共情回应。