时间:2022-10-21 18:18:06
作者:景联文科技
浏览: 次
什么是语义标注?语义标注是用相关概念标记文档的过程。这些文档通过元数据进行了丰富:将内容链接到概念的参考,在知识图中进行了描述。这使得非结构化内容更易于查找、解释和重用。
语义标注或标记是附加到文本文档或其他非结构化内容、与其相关的概念(例如,人、地点、组织、产品或主题)的元数据的过程。与供读者参考的经典文本标注不同,语义标注也可以被机器使用。语义标记的文档更易于查找、解释、组合和重用。
语义标注通过将背景信息与提取的概念联系起来,用机器可处理的信息丰富内容。在文档或另一段内容中发现的这些概念在内容内外都被明确定义并相互关联。它将内容变成一个更好的可管理的数据源。
一个典型的语义丰富过程包括: 文本识别、 文本分析、概念提取、关系抽取、在语义图数据库中索引和存储等五大步骤;
第 1 步:我们从非结构化文本内容中删除样板。
文本是从非文本来源中提取的,例如 PDF 文件、视频、文档、录音等。
第 2 步:我们对内容执行一组标准的自然语言处理操作——例如句子拆分、词性标注和命名实体识别。
算法拆分句子并识别概念,例如人、事物、地点、事件、数字等。
3.概念提取
第 3 步:我们对识别出的实体进行分类和消除歧义。
所有被识别的概念都被分类,这意味着它们被定义为人、组织、数字等。接下来,它们被消歧,即根据特定领域的知识库明确地识别它们。例如,罗马被归类为一个城市,并进一步消除了罗马,意大利,而不是爱荷华州罗马的歧义。
这是语义标注最重要的阶段。它识别文本块,并通过将它们链接到更广泛的现有数据上下文,将它们转换为机器可处理和可理解的数据块。
第 4 步:我们还确定已知实体和新识别实体之间的关系。
提取的概念之间的关系被识别并与相关的外部或内部领域知识进一步相互关联。
5.在语义图数据库中索引和存储
第 5 步:最后,将提取的知识(表示为图)存储在我们的语义数据库 中。
所有提及的人、事等以及它们之间的关系,都被机器可读数据识别和丰富,然后被索引并存储在语义图数据库中,以供进一步参考和使用。
语义标注过程的结果是元数据,它通过引用文本中提到的或与之相关的概念和实体来描述文档。这些参考文献将内容链接到知识图中这些概念的正式描述。通常,此类元数据表示为一组标签或标注,这些标签或标注用概念标识符丰富了文档或其特定片段。
语义元数据可以存储在知识图中,而不是嵌入到文档中。一种支持广泛分析的建模方法是将标注存储为单个对象,这些对象引用文档,文档也是图中的一个节点。通过这种方式,文档和标注成为知识图谱的一等公民,可以与其他类型的数据一起索引和查询:本体、模式、参考和主数据。
使用机器可处理的边缘创建智能内容
将语义标注视为一种高度结构化的数字边缘(在书籍或其他文档的页边空白处制作的标注),通常在内容的人类可读部分中是不可见的。这些笔记以机器可解释的数据形式语言编写,服务于计算机执行分类、链接、推理、搜索、过滤等操作。
例如,在“亚里士多德,政治学的作者,建立了学园”这句话中对选定的概念进行语义标注,意味着将亚里士多德识别为一个人,将政治识别为政治哲学的书面作品,并进一步索引、分类和链接所识别的语义图数据库中的概念,也称为三元组。在这种情况下,亚里士多德可以与他的出生日期、他的老师、他的作品等联系起来。政治可以与其主题、创作日期等联系起来。给定语义元数据 关于上述句子及其与其他(外部或内部)形式知识的链接,算法将能够自动:
找出谁教过亚历山大大帝;
回答柏拉图的哪个学生建立了学园;
检索生活在公元前 380 年到公元前 310 年之间的政治思想家名单;
呈现希腊哲学家的名单,其中包括亚里士多德。
语义标注带来的是智能数据片段,其中包含供机器参考的高度结构化和信息丰富的标注。包含语义标注的解决方案广泛用于风险分析、内容推荐、内容发现、检测合规性等等。
语义标注的内容开辟了具有成本效益的机会:
搜索关键字以外的内容;
超越手动筛选的内容聚合;
超越人类研究的关系发现。
语义标注使其易于:
借助跑腿的机器,在成堆的文件中查找相关信息;
从不同来源提取知识;
根据机器可理解的上下文提供个性化内容;
自动互连内容。
想了解更多关于语义标注及其实际应用的信息吗?