时间:2022-11-07 13:27:32
作者:景联文科技
浏览: 次
数据标签质量问题一直是AI/ML社区关注的主要话题。也许你在解决这个难题时可能遇到的最常见的“原则”是“垃圾进,垃圾出”。
通过这样说,我们想强调人工智能和机器学习开发项目的训练数据的基本规律。提供给AI/ML模型的低质量训练数据集可能会导致大量操作错误。
例如,自动驾驶车辆的训练数据是车辆能否在道路上运行的决定因素。提供低质量的训练数据,人工智能模型很容易将人类误认为是物体或反之。无论哪种方式,糟糕的训练数据集都可能导致高事故风险,这是自动驾驶汽车制造商在其项目中最不希望看到的。
对于高质量的训练数据,我们需要在数据处理过程中涉及数据标注质量保证。
明确客户对数据标注质量控制的要求:
多层次的QA流程
自检
交叉检查
经理的审查
质量保证人员参与
明确客户对数据标注质量控制的要求
高数据标注质量并不仅仅意味着最仔细标注的数据或最高质量的训练数据。对于战略数据标注项目,我们需要明确训练数据集的要求。标注团队负责人必须回答的问题是数据需要有多高质量。
作为数据标注质量的供应商,我们总是问客户的一件事是要求。“您希望我们处理数据集有多乏味?”,“您希望我们的标注精度如何?”。通过回答这些问题,您将为以后的整个项目制定一个基准。
请记住,人工智能和机器学习的实现非常广泛。除了在自动驾驶汽车和交通运输中的常见应用外,AI 和 ML 在医疗保健、农业、时尚等领域首次亮相。对于每个行业,都有数百个不同的项目,在不同类型的对象上工作,因此质量也不同要求。
我们可以举个简单的例子,道路标注和医疗数据标注。对于道路标注来说,工作非常简单,只需要具备常识的标注人员就可以完成这项工作。对于这个标注项目,需要标注的数据集的数量可能会增加数百万个视频或图片,并且标注者必须将生产力保持在可接受的质量水平。
另一方面,医学数据需要在医学领域工作的具有特定知识的标注者。对于糖尿病视网膜病变,要求训练有素的医生根据照片对糖尿病视网膜病变的严重程度进行分级,以便将深度学习应用于这一特定领域。
数据标签质量 – 医疗用途
即使是训练有素的医生,也不是所有的标注都彼此一致。为了获得一致的结果,一个标注团队可能必须多次标注每个文件以最终得出相关性。
这取决于给定数据的复杂程度以及客户希望数据输出的详细程度。一旦澄清了这些事情,团队负责人就可以为所需的结果分配资源。此后将定义度量标准和相关的质量保证流程。
客户端还需要提供示例集作为每个要标注的数据集的“基准”。这是人们可能采用的最直接的数据标注质量保证技术。借助完美标注数据的示例,您的标注者现在已经过训练并呈现在他们工作的基线上。
以基准作为理想结果,您可以计算一致性指标来评估每个标注器的准确性和性能。如果标注和审查过程中存在不确定性,QA 人员可以使用这些样本数据集来定义哪些是合格的,哪些不是。
多层次的QA流程
数据标记项目中的 QA 流程因公司而异。在 Lotus QA,我们坚持国际标准化的质量保证流程。预先确定的偏好将始终在项目开始时明确。这些偏好将被编译成一个“基准”,稍后将作为每个标签和标注的“黄金标准”。
这个多层质量保证过程的步骤是:
在此步骤中,要求标注者对自己的工作进行审查。通过自我评估,标注者现在有时间从项目开始回顾数据标注工具、标注和标签。
通常,标注者必须在时间和工作量方面承受很大的压力,这可能会导致他们的工作出现潜在的偏差。从自检步骤开始的质量保证将是标注者放慢脚步并彻底了解他们的工作方式的时候了。通过承认错误和可能的偏差,标注者可以自己修复它们并在将来避免任何这些。
在一般的数据科学和特别是数据标注中,您可能听说过“偏见”一词。标注偏差是指标注者有自己的习惯来标记数据的情况,这可能导致对提供的数据有偏见。在某些情况下,标注器偏差会影响模型性能。对于更健壮的 AI 和 ML 模型,我们必须采取一些有效的措施来消除有偏见的标注,而一种简单的方法是交叉检查。
数据标签质量 - 交叉检查
通过在您的标注过程中进行交叉检查,对整个工作的看法会有所不同,因此标注者可以识别同事工作中的错误和错误。同样,有了这种不同的观点,审阅者可以指出有偏见的标注,团队领导可以采取进一步的行动。他们可以返工或进行另一轮评估,以查看标注是否真的有偏见。
标注项目经理通常负责标注项目的日常监督。他们的主要任务包括选择/管理劳动力以及确保数据质量和一致性。
经理将接收来自客户的数据采样并处理所需的指标并为标注者进行培训。一旦交叉检查完成,经理可以随机检查输出,看看它们是否符合客户的要求。
在所有这些检查之前,标注项目经理还必须为质量保证画一条“基准线”。为确保一致性和准确性,任何低于预定质量的工作都必须返工。
数据标注质量控制不能只依赖标注团队。事实上,专业和经验丰富的质量保证人员的参与是必须的。为了确保您的标注工作的最高质量,质量保证人员团队是必须的。他们将作为一个独立的部门工作,在标注团队之外,不受标注项目经理的管理。
质量人员占数据标注人员总数的理想百分比不超过 10%。QA 人员不能也不会审查项目中的每一个带标注的数据。事实上,他们会随机取出数据集并再次查看标注。
数据标签质量 – 质量保证
这些 QA 人员接受过数据样本的良好培训,并将有他们的指标来评估标注数据的质量。这些指标必须事先在 QA 团队领导和标注项目经理之间达成一致。
除了自检、交叉检查和经理审核这三步审核之外,QA 人员参与您的标注项目,一定会确保您的数据输出符合预先定义的基准,最终确保您的最高水平训练数据。