时间:2022-10-24 12:06:31
作者:景联文科技
浏览: 次
数据标注可帮助机器理解文本、视频、图像或音频数据。
人工智能 (AI) 和机器学习技术的显着特征之一是其 对所执行的每项任务进行学习的能力, 无论是好 是坏。正是这种不断发展的过程使 AI 与静态的、依赖代码的软件区别开来。
正是这种能力使高质量的标注数据成为训练有代表性、成功和无偏见的 AI 模型的关键因素。
数据标注或数据标记是对训练数据的各个元素(无论是文本、视频还是图像)进行标记以帮助机器了解该数据中的确切内容的过程。然后在模型训练期间应用这些带标注的数据。
数据标注也在更大 的数据收集质量控制过程中发挥作用 ,因为标注良好的数据集成为真实数据集:被视为黄金标准并用于衡量其他数据集质量的数据。
通过数据教学
当然,这是人工智能学习方式的简化版本。在实践中,机器学习算法需要大量 正确标注的数据 来学习如何执行任务——这在实践中可能是一个挑战。公司必须有资源和时间为其特定用例收集和标记数据——有时是用晦涩的语言或独特且技术含量高的领域。
下面将详细介绍不同类型的数据标注、标注数据的使用方式以及为什么人类将在未来继续成为数据标注过程中不可或缺的一部分。
数据标注的重要性
在考虑数字世界中存在的文本、图像、视频和音频形式的非结构化数据量时,数据标注尤其重要。大多数估计,非结构化数据占所有数据的 80-90%。
目前,大多数模型目前都是通过结构化或监督学习来训练的,这依赖于来自人类的标注良好的数据来创建训练示例。
由于数据有多种不同的形式,因此对于文本、图像或基于视频的数据集,有几种不同类型的数据标注。以下是这三种数据标注类型的细分。
书面语:文本标注
任何给定的文本数据集中都有大量的信息。文本标注用于以帮助机器识别其中的单个元素的方式分割数据。文本标注的类型包括:
命名实体标记:单个和多个实体:
命名实体标记或命名实体识别有助于识别文本块中的单个实体,例如“人”、“体育”或“国家”。
这种类型的数据标注创建了实体定义,因此最终机器学习算法将始终识别“圣路易斯”是一个城市,“圣帕特里克”是一个历史人物,而“圣卢西亚”是加勒比海的一个热带岛屿。
人类以独特而多样的方式使用语言来表达思想——句子或短语不能总是从表面上看。有必要在字里行间阅读或考虑上下文来理解短语背后的情绪,这就是为什么情绪标签对于让机器决定所选文本是积极的、消极的还是中性的至关重要 。
在很多情况下,一句话的情绪是明确的:例如,“与客户支持团队的超级有用的体验!” 显然是积极的。然而,当意图不那么直截了当,或者当使用讽刺或其他模棱两可的言语时,就更难辨别真正的含义。例如,“这个地方的评论很棒,但我不能说我同意!”。这是人工标注增加真正价值的地方。
单词的意图或含义可能因上下文和特定域内的不同而有很大差异。金融行业技术对话中使用的特定领域行话与社交媒体上两个朋友之间使用的俚语大不相同。语义标注提供了机器真正理解文本背后意图所需的额外上下文。
图像标注可帮助机器了解图像中存在哪些元素。这可以通过使用图像边界框来完成,其中图像的元素用基本边界框标记,或者通过更高级的对象标记来完成。
图像中的标注可以从简单的分类(例如标记图像中人物的性别)到更复杂的细节(例如,标记场景中的天气是雨天还是晴天)。
图像分类是另一种基于单级或多级类别对图像进行标注的方式。在这种情况下,一个例子是分类为一个“山”类别的山的图像。
检测到运动:视频标注的工作方式与图像标注类似——使用边界框和其他标注方法,视频帧内的单个元素被识别、分类,甚至跨多个帧进行跟踪。例如,将闭路电视视频中的所有人类标记为“客户”或帮助自动驾驶汽车识别道路上的物体。
人与机器
虽然现在可以自动化一些数据标注,但数据标注的人工在环范式仍然是默认的,并且人类在确保正确标注数据方面发挥着不可或缺的作用。人类可以提供上下文,更深入地理解意图,为标注增加整体价值。
内部与外包
数据标注是必不可少的,但也需要大量资源和时间。 一份报告 显示,数据准备和工程任务占大多数机器学习项目花费的时间的 80% 以上。组织可能经常面临一个决定:在内部执行数据标注还是外包?
在内部执行数据标注有一些优势。一方面,您保留对数据收集过程的控制和可见性。其次,对于非常小众或技术模型,具有相关知识的主题专家可能已经在内部。
但是,将数据标注外包给第三方是解决内部数据标注时遇到的一些最大挑战(即时间、资源和质量)的绝佳解决方案。第三方数据标注有助于达到创建有效训练数据集所需的规模、速度和质量,同时遵守日益复杂的数据隐私规则和要求。