微软团队(Microsoft Teams)利用人工智能实现了无头痛的会议

来源： / 时间：2022-06-14 23:47:23 / 点击：次

2020年4月，在新冠肺炎大流行初期，微软团队宣布，使用人工智能(AI)和机器学习(ML)从视频通话中过滤输入、吠叫和其他噪音的能力“即将实现”。

当时，随着与大流行相关的封锁令数百万美国人突然适应远程工作，视频会议工具的使用激增，该平台的用户已经从2020年3月的4400万增加到一个月后的7500万。就在工人们与视频通话的背景噪音作斗争已经成为文化时代精神的一部分时，微软团队在2020年底和2021年初推出了人工智能支持的噪音抑制和视频质量工具。

现在，微软团队继续改进AI和ML功能，以帮助其每月超过2.7亿的用户处理一些最大的视频会议难题——从烦人的回声到难以同时讲话。

新的AI和ml驱动的能力

今天，该公司宣布了一套新的AI和ml支持的功能，内置在Teams的底层架构中。这些功能包括回声消除、调整声音差的区域的音频，以及允许用户在不受干扰的情况下同时说话和听声音。这些应用基于最近发布的人工智能功能，包括扩大背景噪声抑制。此外，微软团队还首次宣布了最近的视频质量改进，包括调整弱光和基于共享内容类型的优化。

微软智能对话与通信云(IC3)首席经理罗伯特·艾奇纳告诉VentureBeat:“我们正努力确保你无论在哪里都能打电话或开会，即使你身处‘混乱’的环境中。”

Aichner拥有音频信号处理的博士学位，过去十年一直在微软工作，过去三年一直在微软团队(Microsoft Teams)领导人工智能团队，该团队致力于发展研究和学术界，并将其转化为产品。

微软团队使用人工智能来应对艰巨的挑战

Aichner说，微软团队一直提供噪音抑制。但是传统的方法只能处理固定的噪音——不随时间变化的噪音——比如电脑风扇或空调。其他噪音，如狗叫声，网络摄像头、麦克风或桌面扬声器的回声，则是更难以忍受的噪音。同样，处理大的或未铺地毯的房间也会让用户听起来像是在洞穴里。

“我们一直致力于消除噪声——这在传统信号处理中一直是一个非常棘手的问题，”他说。但有了机器学习，人工智能模型现在更容易学习和改进。

例如，在电话和会议中，当参与者的麦克风离扬声器太近时，声音通常会在输入和输出设备之间循环，造成不必要的回声效应。现在，微软团队使用人工智能来识别扬声器的声音和用户的声音之间的差异。这样可以在不抑制语音或抑制多人同时说话的情况下消除回声。艾希纳说，为了实现这一目标，微软收集了74种不同语言的3万小时男性和女性说话者的录音，以及房间声学的模拟声音。

此外，在某些环境中，房间音响会导致声音反弹或回响，导致用户的声音听起来很浅，就像他们在一个洞穴里一样。微软团队首次使用机器学习模型将捕捉到的音频信号转换为用户对着近距离麦克风说话的声音。

微软团队的人工智能使用监督学习

他说:“我们基本上采集了大量干净的语音，就像我有一个近距离说话的麦克风，然后我们让模型学习适应它，去掉其他所有东西。”他指出，这是监督学习——有一个目标信号，模型试图为此优化。

他解释说，处理视频质量——比如光线不好的问题——也可以用类似的方法来处理:“你需要在监督下了解好的光线是什么样子的，以及光线不好的情况，然后你需要对光线好的质量与你试图改善的质量进行某种评级。”

在没有足够的带宽提供最高质量的视频的情况下，编码器必须在更好的图像质量和更平滑的帧率之间进行权衡。为了方便最终用户，Teams使用ML来理解用户正在共享的内容的特征，以确保参与者在带宽受限的场景中体验到最高的视频质量。

微软团队参与研究人员，共同开发产品

微软团队在使用AI和ML改善声音和视频质量方面取得的大部分成就，都是他们从2020年初开始与研究社区合作的结果。

作为Interspeech 2020和ICASSP 2021会议的一部分，Aichner的团队开始了一项国际比赛，提供了“深度学习噪声抑制挑战，旨在“促进噪声抑制领域的创新，以实现卓越的感知语音质量”。微软团队为研究人员开放源代码的训练和测试数据集，以训练他们的噪声抑制模型。

如今，Microsoft Teams的研究人员还与产品团队合作，共同影响未来的产品。

他说:“我们组建了联合团队，将这些模型进行整合。”“我认为连接这两个团队非常关键，这样他们就能从产品团队那里获得他们的愿景，知道他们应该关注什么——产品团队也更清楚哪里有漏洞，哪里不起作用。”