近日,京东数字人团队推出了“自由态数字人”JoyStreamer,在核心技术上取得显著进展。它支持自然走动、动态摆姿等高度拟人化动作,能广泛适配电商直播、文旅讲解等20多个行业场景,应用潜力巨大。
京东数字人团队介绍,JoyStreamer运用了“音频、文本”双教师DMD后训练方法,无需额外训练数据就能实现精准控制。同时,采用动态CFG调制策略,有效解决了文本与音频多模态控制冲突,避免了“声画不同步”的尴尬情况。在长视频生成上,京东自研的“历史帧 + 伪最后一帧”结构,可稳定生成30秒以上的高质量长视频。
当下,AIGC技术正推动数字人从概念走向大规模应用,但行业长期存在文本控制能力弱、音视频不同步、长视频生成能力欠缺三大难题,使得数字人产品同质化严重、交互体验差、应用场景受限。京东此次推出的自由态数字人,为这些问题提供了系统性解决思路。
此外,京东此前还上线了“数字人直播间复刻”功能,商家上传一段真人直播素材,就能精准复刻主播形象、声线神态和直播间布景,大大降低了内容制作门槛,帮助商家将直播运营转化为可持续的长期资产。