GTC大会快手展示视频画质评估算法等多项前沿技术

图片来源：图虫创意

日前，在NVIDIA GTC 2023大会上，多位来自快手的技术专家，展示了一系列前沿技术及解决方案：涵盖了从视频画质提升、数字人直播及互动解决方案，到定制性能优化新框架、针对大型推荐模型的性能优化，以及多模态超大模型在短视频场景落地等多个话题。

快手视频画质评估算法体系与画质修复增强方案亮相

(资料图)

提到快手，大多数用户会想到平台上优质且丰富的短视频内容，以及风格迥异的主播们。这背后少不了强大的技术支撑，为了给用户提供更加清晰的画质，快手技术团队持续探索，在工程、算法方向不断积累。

快手音视频图像算法负责人孙明在《快手视频质量评价和画质增强解决方案》演讲中提到，在一条短视频从生产到消费的整体链路上，与画质相关的主要有拍摄、编辑和服务端处理这三个阶段。同时在下发到移动端的过程中，视频画质仍受制于网络环境、带宽成本、用户端机型等因素影响。

为解决这个问题，快手针对UGC视频特性提出了视频画质评估算法体系（KVQ）和画质修复增强方案（KRP/KEP）。两者相辅相成，大幅提升了消费侧画质清晰度。

如何在有限的算力下尽可能把算法效果发挥到极致，实现降本增效？快手视频质量评价框架使用了AI方法来驱动算法开发。“早期我们建立了大量的内部测试集，发现哪怕在数据较小的情况下，AI算法仍然比市面上的工具好用，所以后面的迭代主要围绕在内容多样性、处理多样性、codec多样性三个问题来解决。”孙明表示。

快手画质修复「秘笈」

现如今KVQ已广泛应用于快手内部多个业务场景中，如全链路质量监控、基于内容的自适应处理和编码、搜索推荐等。同时，在StreamLake业务中，KVQ已经实现商业化，并为业内数家知名公司提供服务。

数字人直播及互动解决方案助力游戏营销

最近几年，前沿技术的革新也逐渐带动了虚拟技术的升级。快手视觉互动技术负责人简伟华分享的《快手 3D 数字人直播及互动解决方案》，介绍了快手围绕3D数字人，基于快手虚拟世界互动平台KMIP和快手虚拟演播助手KVS，在直播、社交等领域进行的系列实践。

以游戏场景为例，数字人主播使用快手虚拟演播助手（KVS），以3D形象参与到游戏中，除了自己体验并讲解游戏玩法外，用户也可以在主播的引导下与之进行互动，从而参与游戏进程与结果，甚至可通过打赏等方式入场，以沉浸式第一人称视角操控角色。

在技术的加持下，快手站内参与主题游戏虚拟世界互动的中小主播营收增加了50%以上，直播间付费率提升了2倍以上；带货方面，情人节期间，快手官方联合多位快手虚拟主播进行的直播带货共计4245万人观看，最高同时在线达到3万多人，300万人互动。

快手称，希望以3D数字人的技术栈支持主播和游戏宣发生态，实现多端打通，游戏营销的同时助力直播间个性化互动内容的生产，与平台进行深度联动。用户也可直接参与互动，这样一来，快手既承接了获取流量的部分，也赋予了游戏平台新的互动形式。

快手定制性能优化新框架

在针对更深层次的算法与模型优化方面，快手算法引擎专家门春雷在《基于TensorRT的端到端子图优化框架》的演讲中进行详细阐述，详细介绍了为用户提供更便捷服务的迭代技术。

据了解，NVIDIA TensorRT是一个高性能的SDK，用于优化通用模型的推理性能。快手AI预估系统广泛采用 TensorRT 进行加速计算，然而，工业模型中有一些非通用子图，仍存在优化空间。

门春雷介绍，为了优化这些非通用子图，快手技术团队专门设计了一种利用AI编译器优化子图的端到端框架。具体来说，该框架会自动分析和裁剪ONNX-Graph中存在性能瓶颈的子图，利用AI编译器对其进行优化，并生成代码以填充到TensorRT插件中。这样，基于TensorRT的二次开发，能够进一步提升服务吞吐，节省计算资源。

3.6亿日活大型推荐模型如何实现性能优化

作为头部短视频平台，快手日活用户达3.6亿，日均时长超129分钟。推荐服务在短视频、广告、电商等所有业务中都发挥着重要作用。

软件架构师梁潇在《针对大型推荐模型的性能优化》的演讲中表示，面对推荐时效性强和模型过于庞大的问题，快手通过平衡 CPU 和 GPU 的工作负载来优化整个系统，所有的工作都在同一台服务器上完成。这样做非常易于部署,并能同时充分利用 CPU 和 GPU 资源。

方案的实现关键是将部分负载转移到 GPU 上。梁潇称，为了做到这一点,首先要深度优化 CPU 算法,并且提升模型在 GPU 上推理的效率，“推理所需的时间越少,就意味着有更多的 GPU 算力可以用来承载从 CPU 上迁移的算法。此外,我们还尝试在 GPU 端缓存数据,从而减少对 DRAM 的访问量。”

据介绍，这些优化的动作使GPU利用率从20%左右大幅提高到近90%，吞吐量提高了十倍以上，能够帮助平台在成本可控的情况下，把效果发挥到极致，更好地为用户提供优质服务。

ChatGPT热潮下加速多模态超大模型在短视频场景落地应用

今年以来，ChatGPT持续火爆，让其背后的多模态大模型技术受到更多关注，也为行业带来了诸多AI大模型技术研究热潮。超大模型和超级算力结合加速了技术的应用，而大模型已经从自然语言处理扩展到计算机视觉、多模态领域等。

快手技术团队称，通过研究发现，训练时间漫长、推理效率过低、部署相对复杂是多模态超大模型工程应用的三大拦路虎。为全链路解决上述问题，快手围绕提高模型计算效率和可部署开展技术攻关，沉淀了通用的混合并行训练、推理优化和模型部署整套解决方案。

据悉，目前多模态超大模型已在快手的多个场景落地，以较低的资源成本推动业务开展，探索出了大模型从训练到落地的技术路径。同时，结合快手海量的视频资源和多媒体场景，多模态超大模型可以利用多模态特征构建通用理解能力，应用于推荐、广告、搜索、电商等核心业务。

在ChatGPT和GPT-4带动下，AIGC大火。随着AI技术的进一步发展，大模型以及多模态模型的商业化应用将进一步加速。十年磨一剑，诸如快手等科技巨头们的技术团队，正在各自的赛道中千万次实战中提炼“秘笈”，如今正在赋能用户以及千行百业。

关键词：