语音的产生是一个复杂的神经肌肉协调过程。肺部气流经由声门带动声带震动,并通过声道的共鸣、谐振从而发出声音。语音中携带了声学、语言、情感等复杂信息。抑郁症等精神心理疾病影响神经肌肉协调,从而影响声带和声道,并在语音中的某些特征及特征组合上有具体表现,例如强度、语速、流畅度等等。
为保证模型准确性,我们的抑郁症训练数据采用DSM-5诊断标准并收集自真实患者。患者选择和研究设计由北京大学第六医院牵头(多中心研究), 精神科医师经30-90分钟按DSM-5金标准访谈评估,而后进行语音收集。我们的精神心理健康语音数据集Oizys目前拥有超过43000 条语音,涵盖人群包括抑郁症患者、焦虑症患者、抑郁焦虑并发、非抑郁焦虑患者;并覆盖不同发音习惯,如长元音、短句、词语跟读、认知负荷等。Oizys数据集目前已成为国际领先的基于金标准的精神心理健康语音数据集。
我们的AI深度学习技术可以基于语音进行高精度的非侵入性的心理疾病检测。
我们的模型采用先进的深度学习技术,从海量多样性语音数据中学习到深层的语音表征,并在基于Oizys金标准数据集的抑郁症筛查神经网络中使用这些表征进行高性能分析。相比基于特征工程的传统技术,我们模型性能提高近15%(AUC 0.902),并具有更好的普适性。
仅需30秒左右的16KHz语音(可方便地通过手机等移动设备采样),我们的模型便可给出精准的检测结果。