作为人工智能数据标记领域的新手,Encord希望能乘风破浪

在你甚至可以考虑建立一个算法来读取x光片或解读血液涂片之前,机器必须知道图像中的内容。人工智能在医疗保健领域的所有前景——该领域在2021年吸引了113亿美元的私人投资——如果没有仔细标记的数据集,告诉机器它们到底在寻找什么,就无法实现。

创建这些贴有标签的数据集本身也正在成为一个行业,许多公司的地位远远超过独角兽。今天,从Y Combinator孵化出来的小型初创公司Encord也想参与进来。为了为计算机视觉项目生成贴标签的数据集,Encord推出了自己的测试版人工智能辅助贴标签程序CordVision。在此之前,斯坦福医学院(Stanford Medicine)、纪念斯隆-凯特琳学院(Memorial Sloan Kettering)和伦敦国王学院(Kings College London)都有试点项目。Kheiron Medical和Viz AI也对其进行了测试。

作为人工智能数据标记领域的新手,Encord希望能乘风破浪

Encord已经开发了一套工具,允许放射科医生放大DICOM图像,一种普遍用于传输医学图像的格式。而不是让放射科医生坐下来注释整个图像,该软件的设计是为了确保只有图像的关键部分被标记。

Encord公司于2020年由具有应用物理学背景的Eric Landau和Ulrik Stig Hansen创立。Hansen当时在伦敦帝国理工学院(Imperial College London)从事一项硕士论文项目,研究将大型医学图像数据集可视化。是汉森首先注意到整理有标签的数据集是多么耗时。

这些被标记的数据集很重要,因为它们提供了算法可以从中学习的“基本事实”。有一些方法可以构建不需要标记数据集的人工智能,但人工智能(尤其是在医疗保健领域)在很大程度上依赖于监督学习,这需要它们。

为了创建一个贴有标签的数据集,不止一个医生会逐个检查图像,围绕相关特征绘制多边形。其他时候,可以使用开源工具或传感器来完成。但无论如何,科学文献表明,这一步是医疗人工智能领域的一个主要瓶颈,尤其是在放射学领域,这是人工智能预计将取得重大进展的一个领域,但在很大程度上没有带来任何重大的范式转变。

“我知道(医学界对人工智能)存在很多怀疑。我们认为进展非常缓慢,”兰多告诉TechCrunch。“我们认为,从一开始就真正考虑训练数据的方法,将有助于加速这些模型的发展。”

正如2021年发表在《放射学前沿》(Frontiers in Radiology)杂志上的一篇论文的作者所指出的那样,人类标记人员需要长达24年的工作,才能为一组约10万张图像的数据进行标记。欧洲核医学协会(EANM)和欧洲心血管成像协会(EACVI)发布的另一份2021年立场声明指出,“在医学图像分析中获取标记数据可能耗时且昂贵。”但它也指出,正在出现的新技术可以加快速度。

具有讽刺意味的是,这些新技术本身就是人工智能的版本。例如,2021年发表在《放射学前沿》(Frontiers in Radiology)上的那篇论文表明,采用主动学习方法,这一过程可以加快87%。它只需要3.2个工作年,而不是24年,回到100,000张图片的例子。

CordVision基本上是一种叫做微建模的主动学习过程。一般来说,这种技术的工作原理是让一个团队对图像的一个小的、有代表性的样本进行标记。然后对这些图像进行特定的人工智能训练,然后将其应用到人工智能标记的更大的池中。然后,人工审查员可以检查人工智能的工作,而不是从头开始做标记。

Landu在他的Medium页面的一篇博客文章中很好地解释了这个问题:想象一下,设计一个算法来检测《蝙蝠侠》电影中的蝙蝠侠。你的微型模型将被训练成五幅克里斯蒂安·贝尔蝙蝠侠的图像。另一个可能被训练去识别本·阿弗莱克扮演的蝙蝠侠,等等。总之,您可以使用每个小部分构建更大的算法,然后将其作为一个整体释放到级数中。

他说:“我们发现这种方法效果很好,因为你可以不用做非常、非常少的注释和引导过程。”

Encord已经发布了数据来支持Landau的说法。例如,与伦敦国王学院(Kings College London)合作进行的一项研究将CordVision与英特尔(Intel)开发的标签程序进行了比较。5个标签标注了25744个内窥镜视频帧。使用CordVision的胃肠病学家移动速度要快6.4倍。

该方法也适用于15521张COVID-19 x光片的测试集。人们只查看了总图像的5%,人工智能标记模型的最终准确率为93.7%。

也就是说,Enord并不是唯一一家发现这一瓶颈的公司,并试图使用人工智能来平滑标签过程。这一领域的现有公司已经报告了较高的估值。例如,Scale AI在2021年的估值达到了73亿美元,而Snorkel已经达到了独角兽的地位。

兰道承认,该公司最大的竞争对手可能是Labelbox。在第一轮融资阶段,TechCrunch报道了Labelbox的50家客户。今年1月,该公司完成了1.1亿美元的D轮融资,距离10亿美元的大关近在咫尺。

CordVision仍然是一条非常小的鱼。但它陷入了数据标记的浪潮中。兰道说,公司正在寻找那些仍在使用开源或内部工具进行数据标记的公司。

自从Y Combinator毕业以来,该公司已经获得了17.1美元的种子期和首轮融资。公司从两位创始人发展到20人的团队。兰多说,恩科德并不是在烧钱。该公司目前没有寻求融资,并相信目前的提高将足以使该工具通过商业化过程。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除。