项目概述
基于ChatBOT的AI辅助心理干预Calm模型训练与系统临床试验
+ 量表填写
+ 科普查询
量表填写
+ 科普查询
入组流程设计
标准化操作全流程
二维码 + 手机号验证
问卷提交触发随机分组
2:1 科学分配
随机化方案
区组随机化 (Block Randomization)
方案设计
均衡性
比例始终接近 2:1
透明化
消除人工干预
可追溯
精准溯源盲底
数据采集方案
全周期跟踪量表
基线 (入组时)
3个月随访
6个月随访
训练架构
Qwen3-8B 监督微调 (SFT)
96GB 显存/卡
高质量对话样本
数据处理流
实验版本对照
4个版本的参数探索与迭代
- LoRA: r=32, α=64, drop=0.1
- LR: 2e-5 (warmup 0.1)
- Batch: 8卡 DDP (Global=16)
- LoRA: r=32, α=64, drop=0.1
- LR: 3e-5 (warmup 0.03)
- Batch: 单卡 (Global≈16)
- LoRA: r=32, α=64, drop=0.2
- LR: 1e-5 (warmup 0.1)
- Batch: 单卡 (Global≈16)
- LoRA: r=64, α=128
- LR: 2e-5 (warmup 0.1)
- Batch: 单卡 (Global≈16)
实验指标对比
不同版本模型性能量化分析
| 版本 | 关键差异超参 | Train Loss | Eval Loss ↓ | Eval Acc ↑ |
|---|---|---|---|---|
| V1 | lr=2e-5, warmup=0.1, LoRA(32/64/0.1) | 3.8815 | 4.1184 | 34.35% |
| V2 | lr=3e-5, warmup=0.03, LoRA(32/64/0.1) | 3.0711 | 3.0037 | 39.92% |
| V3 | lr=1e-5, warmup=0.1, LoRA(32/64/0.2) | 3.4485 | 3.1371 | 38.94% |
| V4 🏆 | lr=2e-5, warmup=0.1, LoRA(64/128/0.05) | 3.0922 | 2.9962 | 40.02% |
技术栈与模型参数最佳实践
Qwen3-8B推理模型 V4 HighRank版本表现最佳
模型评估结果
SFT vs Base A/B 对比评测
基于60组样本的DeepSeek反向评审与人工评估
分维度提升详情
SFT在共情与清晰度上提升显著
优势场景分析
特定主题下的SFT模型具备显著优势
干预胜率
策略胜率
应对胜率
策略胜率
项目全周期执行路径
从技术验证到生产落地
1. 架构基座与选型
完成 Qwen3-8B 基底验证与 8×H20 算力调度
2. 精细化数据工程
执行 571+ 深度会话对齐、多轮拆分与 ChatML 指令增强
3. 集群化 SFT 精调
实施分布式 LoRA 训练,通过逐轮递增策略提升对话深度
4. 多维评估与对齐
构建闭环评测体系,通过专家评审与 A/B Test 完成对齐
5. 生产级推理部署
部署2*RTX 4090D 实现bf16量化与推理的应用服务器
6. 全链路监控迭代
建立 MLOps 反馈闭环,基于用户交互数据持续进化
核心结论
SFT效果显著
相比Qwen8B基底模型,6个核心维度均有显著提升
一期SFT最佳参数版本锁定
V4 (HighRank) 版本综合表现最优
边际收益分析
当前数据规模和算力能力下,8B模型已达性价比上限,可实现本地部署
下一步工作建议
案例 1 (sid: G6::t54,Δ=15)
Patient Input
"其实都是一些小事情,但老感觉活着好累啊。怎么会有这么多的事情?再加上好像看不到什么希望,或者是没有心思再去多活一天的那种想法,我感觉今天吃完喝完,干完自己的事情,明天可能还是会这样啊,如果说是在身体好的情况下,可能未来的一年两年也会是这种情况,就是按照现在的这种方式继续生活呃。如果说身体不允许的情况下,可能就会早点解脱,或者是怎么样?没有再去想,以前老老想规划一些,就是想着孩子长大了,上幼儿园了,我再去报个游泳班。嗯,报个瑜伽班,然后一天上课,然后一天接送孩子。近一年来我基本上都没有这样的想法。嗯,因为一直没有时间…"
Judge Analysis
- SFT回复更全面地承接来访者的绝望情绪,使用隐喻(如‘马拉松’)深刻表达共情,而Base回复不完整,共情有限。
- SFT回复保持专业边界,提供支持而不强迫,清晰可执行(如建议‘一起慢慢梳理问题’),Base回复不完整,缺乏可操作性。
- SFT回复识别了来访者‘早点解脱’的自伤风险,并强调陪伴,安全性较高;Base回复未涉及风险。
案例 2 (sid: G4::t4,Δ=14)
Patient Input
"对,我是到 30 多岁的时候,因为收到一个offer去的深圳。我老公是东北人。因为我还有一年就退休,我原来是华为的,退休的福利特别的好。但是就是为了这个病,我其实在去年 5 月份的时候,当时我们两个内部讨论了一下,我们都觉得因为公司当时跟我说的是我可以回来上班,但是要回深圳。我自己犹豫了再三,我觉得已经接受了这个事实,放弃了所有的身外之物。然后我们把北京原来的房子卖掉,就又租房,他又找工作,但是不顺利。整个这一年,他也是觉得在我卵巢转移之前,我们两个的信念都因为我的分期并不晚, 我当时自己一直认为挺个两年没问题,嗯…"
Judge Analysis
- SFT回复完整且深入共情,有效承接来访者的情绪如失控感和恐惧,而Base回复不完整。
- SFT回复贴合干预策略'角色再认同',通过重新定义来访者的经历为勇敢面对,引导自我认同,而Base回复未体现策略。
- SFT回复识别了安全风险(如'等死'的绝望感),并通过积极回应降低风险,而Base回复未涉及安全性。
案例 3 (sid: G4::t63,Δ=12)
Patient Input
"我现在全身就像过电一样。对,然后包括我也会在想说。其实在我做第一次心理咨询之前,可能我没有面对,没有触碰这些东西的时候,我还可以正常生活,但是好像就是从做了心理咨询之后,把这些事情都摊在面桌面上,包括我老公的一些脆弱,我也是看到之后我很崩溃,也对我产生了一很大的压力。"
Judge Analysis
- SFT回复更全面地表达共情与情绪承接,肯定来访者的勇气和努力。
- SFT回复更贴合对话上下文中的干预策略(探索和澄清),邀请进一步梳理情绪。
- SFT回复更清晰、具体,提供可执行的支持建议,如共同探索策略和强调陪伴。
案例 4 (sid: G6::t64,Δ=8)
Patient Input
"对,就是这样。因为这次回去本来想考虑的是找一个保姆,但是大家意见就是暂时不能找保姆,因为保姆不了解我的性格,然后跟我再去磨合的这个过程中,可能让你生气,受伤了,他们就想着先让我妈妈,嗯先陪着我,嗯先去做这些事情"
Judge Analysis
- SFT回复更完整,直接共情来访者的努力和情绪,并引导反思情绪需求,增强了情绪承接。
- Base回复不完整,缺乏具体干预建议和清晰性,在专业性和可执行性上较弱。
- SFT鼓励健康沟通和情绪表达,贴合治疗师的意图(情绪识别引导),但偏离了参考回复的转移注意力策略。
案例 5 (sid: G4::t92,Δ=6)
Patient Input
"但是我最近是不是因为很紧张,所以就觉嘴特别干,然后整个上呼吸道都特别干,然后身体也很干"
Judge Analysis
- SFT回复更完整,提供了清晰的建议和共情确认(如'你现在的感受是真实的,也值得被认真对待'),而Base回复未完成,影响可执行性和专业性。
- SFT在安全性和干预策略贴合度上表现更好,明确建议就医以应对潜在风险,更符合'支持和教育'的策略。
- 两者在参考治疗师回复的贴合度上均较低(未涉及中医角度),但SFT在整体质量上更优,尤其在共情和清晰可执行性方面。
案例 6 (sid: G6::t100,Δ=4)
Patient Input
"嗯嗯,好的好的。这样我就知道怎么去改善了。嗯,实在是没有方向,也就是一天就是心情不好,就在这躺着"
Judge Analysis
- SFT回复在共情与情绪承接上更优,详细描述来访者的疲惫、迷茫和无助情绪,并正常化这些感受,而Base回复虽表达理解但稍显泛泛。
- SFT回复在专业性与边界上更好,保持中立建议如自我陪伴和社交支持,而Base回复中'随时在这里陪你'可能模糊咨询边界。
- SFT回复更贴合干预策略'共情回应',专注于情绪支持和自我接纳,而Base回复混合了行动建议,偏离纯共情回应。