短视频优化快手ASR应用场景项目--快手异构计算中心(组图)短酷短视频补贴

快手成立于2011年3月,总部位于北京。它是领先的内容社区和社交平台,面向全球用户以短视频或直播的形式记录和分享日常生活,每天产生数以千万计的原创新鲜视频。

图:快手ASR应用场景

项目概况

自动语音识别(ASR)是电子商务、短视频、直播等众多应用的核心技术之一。ASR在快手有很多应用场景,是快手APP、直播、风控、游戏等众多业务的核心功能,尤其是在直播和短视频应用领域。ASR流式自动语音识别已成为快手各项创新服务的核心技术之一。比如流行的直播间小快机器人(语音助手)、快手APP语音搜索、直播间语音输入法、语音魔术表情、甜美相机的实时字幕、新推出的快影自动字幕服务等

作为全球最受欢迎的直播和短视频应用平台之一seo排名seo排名,快手在全球平均拥有3亿日活跃用户,通过各种终端在快手平台上记录和分享他们的生活或经历。面对如此庞大的用户和应用场景,快手希望优化其ASR服务,以满足客户日益增长的需求,为他们提供更好的用户体验。

用户体验最重要的性能指标是延迟和并发通道数。快手异构计算中心,致力于“围绕快手核心业务打造技术护城河”,借助™及相关工具套件,大幅提升ASR的整体服务性能和用户满意度,成为国内大型网络直播和短视频应用。场景的 ASR 范例。

项目挑战

在快手之前基于CPU框架的处理流程中短视频优化,特征提取等预处理模块的运行时间约占5%~10%,TDNN+LSTM声学模型的运行时间约占60%~80%,而包含的语言模型解码器部分的运行时间约占 15% 到 30%。快手异构计算中心希望找到更合适的异构底层设备,将最耗时的TDNN+LSTM声学模型转移到这个设备上并进行优化。

快手异构计算中心团队认为,以TDNN+LSTM为主要结构的流式声学模型优化存在三个关键痛点,即延迟()、实时率(RTF、Real TIme)和并发数()。需要解决以下问题:

此外,快手对 GPU 进行了评估,发现其硬件使用率 ( ) 较低,无法满足 RTF 要求,SRAM 容量也无法满足 TDNN+LSTM 模型的高并发要求。对于主流ASIC,除了上述硬件利用率问题外,还存在不支持框架、仅定点应用等问题,难以满足ASR优化的精度要求。

综上所述,快手技术团队认为,满足上述要求的理想异构设备平台应该是可以完全定制化的专用平台,通过SEO录制可以保证准确度满足各种业务的标准.

解决方案

经过评估,快手异构计算中心决定选择赛灵思加速卡来优化ASR服务。

“我们认为,理想的ASR加速解决方案是能够支持高带宽、大SRAM和定点推理的硬件平台,”快手异构计算中心主任刘令志博士说。“ 的 FPGA 完全符合我们的要求。”

图:快手各种设备选型对比

结合SEO开发的定点通用推理框架和定点C模型,快手基于相关HLS高层综合和Flow,从算法、系统、软硬件等关键方面到 ASR 系统。多方位创新,应用多项最先进的优化技术:

图:ASR系统整体架构

算法层面:采用图融合、图优化、图同构、图分割、高精度量化技术,无需再训练,在保证精度的同时,有效压缩模型,更有利于发挥FPGA计算效率;

梨视频如何上传短视频_短酷短视频补贴_短视频优化

系统层面:自主研发的适用于FPGA的通用推理框架和通用Host调度框架,支持多模型,模型可扩展,自动部署,易用性强;

软件级:设计机制,基于任务调度和负载均衡策略,实现任务级数据传输、计算等高效并行处理;

硬件层面:基于超长指令字定制指令集架构,设计编译器,基于™HLS高层次综合优化技术快速完成高效的FPGA底层设计。与直接使用硬件描述语言(如HDL)相比短视频优化,HLS技术使用C++/C++语法在更高的抽象层次上描述硬件行为,不仅达到了类似的效果,而且加速了各种实现优化技术。将开发时间从 3 个月缩短到 6 周。

优化后系统的整体架构如图3所示:调度加速引擎的代码框架(Host)接收输入的语音数据,通过预处理、神经网络推理和后处理生成识别文本。黄色部分的神经网络推理过程被卸载到加速卡上完成。

效力

借助 加速卡和相关设计工具,快手最终实现了 TDNN+LSTM 声学模型的全定点推理硬件加速解决方案,全面优化了 ASR 服务,实现了:

1.大幅降低CPU的工作量,提升单台服务器的业务处理能力7.5倍;

2.端到端延迟大幅降低平均37.67%;

3. 将总系统成本显着降低至 0.29(相当于总成本降低 71%)。

4.独特的开发周期。采用可实现与现有业务的无缝集成,并通过 Flow 将设计周期从 3 个月缩短至 6 周。

这是FPGA在国内大规模直播和短视频自动语音识别场景中的首个成功案例,展示了快手各种创新应用背后的技术团队强大实力。2021年年中以来,优化后的语音识别服务已广泛部署在快手直播和短视频应用平台上,目前数亿用户正在享受其带来的前所未有的语音识别体验。

免责声明:本站所有文章和图片均来自用户分享和网络收集,文章和图片版权归原作者及原出处所有,仅供学习与参考,请勿用于商业用途,如果损害了您的权利,请联系网站客服处理。