随着网络世界的发展,越来越多人开始在直播平台上分享内容。对主播进行建模是一项有趣且有挑战性的任务。在视频号中,主播的行为是复杂且多模态的,复杂体现在主播有简介、历史发步过的短视频,也有直播的信息等;而多模态体现在主播的信息包括文字、图片、视频画面、音频、标签信息等。如何利用这些复杂的信息压缩成一个 n 维的向量是具有挑战性的。