本体工程
本体工程基础
本体工程的定义与演变
本体工程的定义
本体工程的概念今年来在不断演变,其侧重可以概括为以下几点:
- 专业术语、概念、命名法
- 实体关系
- 概念辨别、定义修正、关系优化
其逐渐从宽泛类属和术语定义转向了更为严谨的从属和逻辑关系。
本体工程应该具有的特性
本体工程应该具有的特性包括:
- 以声明性知识表示语言形式编码
- 语法结构良好,能经过适当的语法检测器或解析器验证
- 逻辑一致,能经过专业人员验证
- 能通过专业测试,满足测试场景和业务需求
1
2
3
4
5
6
7
Logic can be more difficult to read than English, but is clearly more precise:
(forall ((x FloweringPlant))
(exists ((y Bloom)(z Bloom Color))(and (hasPart x y)(has Characteristic y z))))
Translation:Every flowering plant has a bloom which is a part of it, and which has a characteristic bloom color
Language: Common Logic, CLIF syntax (ISO/EC 24707:2018,2018)
本体工程的应用场景
本体工程的应用位置包括:
- 为术语/通用词汇编码,帮助群体内部和群体间交流
- 以XML和基于RDF Schema的协议编码、拓展和改进灵活性
- 用于信息组织和搜索引擎优化
- 用于描述内容管理系统中的资源,用于存档、公司网站管理和科学实验等
- 推荐系统、配置系统和策略分析与实施、情景分析系统等
综合来看,本体工程可以应用于跨组织、跨领域、多学科、多系统的问题,从而连接不同类型的数据。
本体工程的全栈流程
知识表现方法(Knowledge Rrepresentation Languages)
针对不同领域有不同的知识表现方法,它们包括:
- 一个词汇表,由 一组逻辑符号和保留项+变量+常量 组成
- 一种语法,提供将这些符号组合成格式良好的表达式规则
- 形式语义学,确定常量和变量如如何与话语宇宙中的事物相关联的参考理论
- 规则推理,决定一个模式如何从另一个模式中推断出来;如果逻辑合理,推理逻辑必须保持由语义决定的真理
同时要注意的是,一阶逻辑(FOL, First Order Logic)和KR是具有不同的,包括语法、实现FOL的子集(这里指的是词汇表等内容)、证明理论和模型论。经典FOL是双值的,三值逻辑引入未知数,四值逻辑引入不一致性。
描述逻辑(DLs, Deep Logics)是一系列基于逻辑的形式化语言,代表了FOL的子集。它们在概念/类(classes)、角色/关系(relationships)、个体/实例(instances)方面对本体进行规范,在本体谱(ontology spectrum)上具有合理表达性,又没有足够表达能力构建高效推理引擎。
本体、知识库、知识图的关联和区别
本体(Ontology)指特定领域中某方面的概念模型,本体论只包含至关重要的少数主要概念。而知识库是排除本体、只包含关于个体的信息和它们的元数据。知识图既包含本体,也包含相关数据。在开发过程中,本体和知识库应该尽可能分开维护,因为本体的发展是缓慢的,而知识库的更新却十分频繁。
推理、真理维护和否定推理(Reasoning, Truth Maintenance, Negation)
逻辑断言可以简单理解为声明某个前提为真的显式陈述,一组逻辑断言放在一起形成逻辑理论(logic theory);一致的逻辑理论不包含任何逻辑矛盾——这意味着至少有一种对理论的解释,其中的所有断言都可以被证明为真。推理用于检查断言集合中的矛盾,也提供了发掘所述内容中隐含信息的方法。当知识库中有新信息加入时,该新信息可能会否定一些假设和前提,使得先决条件无效。
推理者通过使用推理规则寻找他们所得到信息的“演绎闭合”,采用显性陈述和推理规则,并将这些规则用于显性描述,直到没有更多推理可以得到。推理过程中,推理器寻找它可以推断的额外信息,并检查它认为的内容是否一致,并应用推理规则防止自身陷入无限循环。当逻辑不一致被发现时,推力器必须从给定的无效语句中确定其它语句是否也无效(该过程被称作真值维护)。
当推理为非单调的情况时,情况会复杂起来,会产生不同的否定方法和非单调推理者的解释。解决方案包括回溯算法、启发式算法、限制算法、假设撤回等。一些经典的推理方法包括基于If-then的正向链和反向链、表法(tabuleau)、逻辑编程等。
解释和证明
针对推理者得到的结论,应该要有一系列合理的解释和证明,包括:信息源(information source)、互操作性(interoperability)、重用性(reuse),可信度(trust)和一般调试(general debugging)。对于转义和解释推理者得出结论及证明规范的重要方法包括:
- 发掘信息源(源头,source)
- 了解最近更新时间(时效性,currency)
- 了解信息可信度(权威性,authoritativeness)
- 明确信息的获取途径和流程,明确其是推理出来的还是直接得到的(推理方法,method of reasoning)
领域分析和概念建模
领域分析
领域分析涉及为特定目标开发某个感兴趣领域的模型,内容包括与项目有关的需求和用例、可交付成果的目标集等,常用方法包括思维导图、头脑风暴等。
针对不同领域的分析,其具有不同的侧重点:
- 软件/数据工程:找到现有软件、存储库和服务和服务的共性,并开发更高层次模型,用于重新设计或促进集成
- 人工智能知识背景:定义结构概念,将其组织成分类,并开发这些分类和概念的单个实例,确定包容和分类的关键推论
- 业务架构角度:内容包括组织的核心竞争力、价值流、关键挑战、针对一致目的的不同看法等
- 图书情报学(LIS):涉及到广域知识分类、话题社区组织等
建模和抽象级别
利用本体工程进行建模可以为刚接触知识表示的人提供一个更高层次的视图,尤其是通过分层从最抽象最高级别建模到最具体最低级别。本提供工程提供了任意抽象维度的建模,但一般典型指定了上下文、概念和逻辑层的知识。
对于某个特定领域进行本体工程构建,可以从不同细粒度的视角出发进行。