选择语音到文本引擎,照片阶段可以使用该引擎自动生成视频字幕。