第一作者联系方式: E-mail: chenlina@cgris.org
本体是一种能够有效提高农作物种质资源整合、共享和利用效率的组织方式。在分析传统本体构建方法的基础上, 结合中国农作物种质资源自身的特点, 提出结构化数据与非结构化数据相结合的半自动化本体构建方法。该方法首先基于面向对象的思想从关系数据库中抽取概念及其关系建立初始本体; 然后从非结构化的网站数据中提取概念, 并利用在线字典WordNet和网络百科全书Wikipedia丰富概念的语义, 完善初始本体。使用本体构建工具Protégé构建了农作物种质资源本体模型。实验表明, 该方法既充分利用了数据库中的资源, 又考虑了非结构化数据的补充作用, 减少了构建成本, 本体更加完善。探讨了本体进化的途径, 指出了本研究的优点和局限性。
Ontology is an efficient organization for improving integration, sharing and use efficiency of crop germplasm resources. On the basis of analyzing traditional ontology construction methods and characteristics of national crop germplasm resources, a semi-automated ontology construction method combining structured data and unstructured data was proposed. The method established initial ontology by extracting concepts and their relationship from relational database based on object-oriented approach, then, extracted concepts from unstructured web data, and enriched the semantic of these concepts using online dictionaries such as WordNet and online encyclopedia Wikipedia, so as to improve the initial ontology. Crop germplasm resources ontology model was constructed using Protégé, an ontology construction tool. The experimental results showed that the method made the database resources fully utilized, the complementary role of unstructured data considered, the cost of ontology construction reduced, and the ontology more perfected. The paper discussed ontology evolution way, and pointed out the advantages and disadvantages of the study.
农作物种质资源是人类生存和社会发展的基础, 是培育作物新品种、发展生物技术、促进农业发展的基本条件, 是国民经济可持续发展的重要战略资源[1]。农作物种质资源的拥有和开发利用程度已成为衡量一个国家综合国力和可持续发展能力的重要指标之一。随着国家农作物种质资源平台的建立、运行, 并对外提供服务, 原有的基于传统关系数据库的资源信息组织方式不能很好地描述种质资源概念及概念间的关系。因此迫切需要新的组织方式, 实现对资源的进一步规范化描述, 提高资源信息共享水平, 满足用户对种质资源信息日益增长的需求。本体可以更好地描述资源及其之间的关系, 它为解决资源的组织方式提供了新途径。
本体起源于哲学领域, 是研究“ 存在” 的科学, 后来逐渐被引入到人工智能、信息科学等领域。目前, 在许多领域都进行了有关本体的研究。在国外, 3种模式(果蝇、小鼠和酵母)基因研究小组于1998年建立了基因本体, 它是生物信息学领域使用最广泛的本体, 其目的是希望提供一个具有代表性的规范化的基因和基因产物特性的术语描绘或词义解释的工作平台, 使生物信息学研究者对基因和基因产物的数据能统一归纳、处理、解释和共享[2]。联合国粮农组织(FAO)的农业本体服务(AOS)项目组也于2001年之后着手构建渔业本体、作物野生近缘植物本体、食物安全本体等[3, 4], 并取得了良好的效果。美国的一些科研机构在国家科学基金会(NSF)的支持下, 构建了植物本体(PO)[5]。国际生物多样性研究中心也进行了有关作物本体的研究, 建立了作物相关的概念词汇[6]。在我国, 中国农业科学院农业信息研究所进行了本体在农业方面的应用研究, 构建了花卉学领域本体模型和实验型的智能检索系统, 为本体在图书情报领域的应用提供了范例[7]。大连海洋大学进行了渔业本体方面的相关研究工作, 研究了对渔业知识库更新的自动化半自动化方法[8]。四川大学进行了农作物栽培领域本体的构建[9], 探讨了农作物栽培领域本体构建的过程和步骤。南京农业大学也进行了基于本体的作物系统模拟框架的构建研究, 将本体技术应用于作物模拟模型领域, 为设计可重用的作物模型软件提供指导[10]。目前, 国外已经有一些很成熟的农业本体, 并得到了实际应用, 而国内的本体研究大都是尝试性的实验, 很少能真正达到成熟的阶段应用。在我国, 农作物种质资源本体还没有建立, 因此, 有必要尝试构建本体来描述种质资源概念及其关系。
在本体构建方面, 国外有很多典型方法, 包括骨架法、七步法、TOVE法、IDEF5法等[11], 它们为本体构建提供了很好的方法论基础。但由于本体的构建是面向特定的应用目的, 基于一定的专业领域和学科背景, 因此, 不可能照搬某一种方法, 通常是根据具体的应用对某种方法改进或将几种方法结合。国内也有一些学者进行了有关本体构建方法的研究[12, 13, 14], 这些方法大多是在领域专家参与下手工构建的, 工作量大, 费时费力。也有一些半自动化的构建方法[15, 16], 但由于针对具体领域, 不适合种质资源的特点。我国农作物种质资源已经整合了包括粮、棉、油、蔬菜、果树等200多种作物, 40余万份种质, 建立了近700个数据库, 建成了中国作物种质资源信息网(CGRIS, http://www.cgris.net/)。这些海量数据, 如果依赖领域专家手工构建, 工作量将很大。
因此, 在借鉴不同领域本体研究的基础上, 分析不同的本体构建方法, 结合我国农作物种质资源的特点, 提出结构化数据与非结构化数据相结合的半自动化本体构建方法, 并尝试构建农作物种质资源本体, 期望通过本体来提高资源信息共享水平, 从而提高种质资源的利用效率。
采用中国农作物种质资源相关数据, 包括结构化的数据库和非结构化网站的数据。相关的数据库包括国家作物种质库管理、青海复份库管理、国家种质圃管理、中期库管理、农作物特性评价鉴定、优异资源综合评价和国内外种质交换等9个子系统的相关数据库, 数据量超过340 GB[17]。涉及农作物种质资源普查数据、调查数据、引种数据、监测数据、保存数据、鉴定数据、分子数据、图像数据、利用数据等。相关的网站有国家植物种质资源平台、中国作物种质资源信息网、农作物种植论坛、中国蔬菜网和中国种业信息网等。其中国家植物种质资源平台又分为农作物种质资源、多年生与无性繁殖作物种质资源、热带作物种质资源、林木(竹藤花卉)种质资源、药用植物种质资源、牧草种质资源和野生植物种质资源6个子平台, 涵盖了作物种质资源领域包括文本、图像和视频等多种类型数据。对于非结构化的网站数据, 还需要利用在线词典WordNet和网络百科全书Wikipidia中丰富的资源, 进行概念语义的映射。
针对本研究提出的方法, 将构建过程分为两步。针对结构化数据, 采用面向对象的方法构建初始本体; 然后半自动提取非结构化网站数据, 并利用在线词典WordNet和网络百科全书Wikipidia进行语义映射, 对初始本体进行完善。
1.2.1 以结构化数据构建初始本体
该步骤针对数据库中的结构化数据, 利用面向对象方法来构建初始本体。面向对象的方法最初是一种与结构化程序设计相对的编程方法, 后来不仅被用在程序设计方面, 也常被用在信息系统软件开发过程中。它将现实世界的客观事物用对象抽象表示, 使用抽象、类、继承、封装等概念来构造系统。分析我国农作物种质资源相关数据库, 把每个数据库看作一个对象, 从中抽象出类、子类和元素。分析发现, 类、子类和元素之间存在明显的层次关系, 这种关系呈现出对象的“ 聚合” 特征。数据库中对象的属性表示了作物的静态特征, 方法反映了作物的动态特征, 属性和方法结合为独立的个体, 体现了对象的“ 封装” 特性。每个子类都继承了其父类的特征, 体现了对象的“ 继承” 特性。因此, 采用面向对象的方法从数据库中抽取概念及关系来构建农作物种质资源初始本体, 是一种简单有效的方法。
构建初始本体的面向对象的方法是, 首先从数据库中抽象出类; 然后将类的概念映射成本体的概念, 将类的属性映射成与本体概念对应的概念的属性, 将类和子类的关系映射成本体概念间的关系, 并根据类的约束规则建立本体概念间的约束关系; 最后使用本体建模工具进行本体的形式化表达(图1)。
1.2.2 以非结构化数据完善初始本体
初始本体是从关系数据库中抽取而建立的, 它基本上涵盖了农作物种质资源的重要内容, 反映了农作物种质资源的主要概念及概念间的关系, 但是仅仅依靠数据库所构建的本体还不够全面。在农作物种质资源领域的相关网站上, 还存在一些数据库中没有的其他重要信息资源, 因此, 参考这些网站的资源(尤其是CGRIS的资源)扩充初始本体, 可对种质资源生命周期的全部研究对象建立关系, 可使得构建的本体更加完善, 便于资源本体最大效能地发挥作用。
(1)概念的提取及分类: 网站涉及的数据量很大, 抽取网站数据的方法很多, 可以对网页文档通过DOM解析进行抽取, 也可以使用正则表达式进行抽取[18, 19]。本研究是希望获取网站的信息资源的概念来丰富初始本体, 因此, 希望抽取能代表网站内容和主题的概念数据。首先在Visual C++6.0环境下编写代码, 实现网站文本数据的自动提取(图2)。
通过该方法可以自动获取网页上的文本内容, 为了获取文本中所包含的概念, 还需要对数据进行以下处理, 即对中文文本进行分词处理; 然后描述所获取文本的特征, 根据文本特征构建向量空间模型, 计算权值, 建立文本的初始特征向量; 再进行特征选择, 获得最终的特征词向量; 最后提取特征, 进行文本的分类。有关网页文本数据的提取分类的
算法很多, 本文不做重点阐述, 只是根据自动抽取的网页内容判断概念集并分类, 得到网站数据的初始概念集。
(2)语义映射: 通过网站抽取的概念不涉及语义, 但对本体概念及其关系的描述, 需要恰当的语义。本体中概念的语义可以由初始概念集关联在线词典WordNet和网络百科全书Wikipedia而得到。WordNet是普林斯顿大学认知科学实验室开发的一部在线英语词典, 它将单词按照意义组成一个单词的网络, 具有强大的表达词汇关系的能力[20]。虽然我国已经开发了WordNet中文版本, 但还没到实用阶段, 所以概念关联的时候需要借助于中英文转换。Wikipedia是基于维基技术用不同语言写成的网络百科全书, 其中DBpedia可以自维基百科提取数据, 借由资源描述框架技术创建可供查询的语义网计划, 强化维基百科的搜寻功能, 并将其他资料集连结至维基百科[21]。
语义映射的具体实现步骤为, 将集合中的概念与初始本体中的概念比对, 若初始本体中不存在此概念, 将其映射到WordNet中, 通过WordNet的词表语义功能为每一个概念界定可能的意义。概念相似度
得到含有语义的网站概念集之后, 可根据集合中概念与概念、概念与属性、概念与资源的关系确定本体中概念间的关系。其对应关系如表1所示。
由于本体构建是一项复杂的工程, 面对农作物种质资源的海量数据, 需要较多的人力物力长时间才能完成。因此, 本研究只进行本体模型的构建, 来验证本方法的有效性。
本体的构成要素包括概念、属性、关系、公理和约束等。根据面向对象的方法, 首先需要从数据库中抽象出类, 并映射成本体的概念; 然后定义概念的属性; 明确概念间的关系; 再定义概念的公理和约束规则; 最后形式化表达, 可得到初始本体。
(1)自上而下抽取出基本的类, 并映射成本体的概念。基于农作物种质资源相关数据库, 分析农作物种质资源特征及整个生命周期的活动, 可将种质资源本体的研究对象分为种质收集、种质保存、种质分发、种质类型和种质属性几大类, 每一大类又可细分为小类。种质资源按其类别不同又可分为粮食作物、油料作物、纤维作物、蔬菜、果树及其他类型, 粮食作物又可细分为水稻、玉米、小麦、黍稷、大麦、谷子、高粱等, 其中小麦又可按其属名细分为小麦属、山羊草属、冰草属、偃麦草属、大麦属等[22]。对这些类及子类进行综合分析, 映射成本体的概念。
(2)对于每一类, 根据该类的属性, 将其映射成本体中概念的属性。分析数据库, 可得到作物的属性包括基本信息、形态特征和生物学性状、品质特性、抗逆性状、抗病性状等。基本信息又包括名称、原产地、保存单位、属名、科名、库编号、经度和纬度等。形态特征和生物学性状包括壳色、株高、穗型、粒度等。品质特性包括蛋白质、淀粉、赖氨酸含量等。对不同作物所关注的农艺性状有所不同, 比如对玉米会关注穗型, 而对水稻则会考虑黏糯性。同样, 对不同作物可能会产生的病虫害类型也是不同的。
(3)抽取类的关系, 并将数据库中类的关系映射成本体中概念的关系。根据类的关系定义概念的上下位关系、成员关系、同义关系等。根据上述分析, 类与子类存在上下位的层次关系; 不同种类的作物也可能存在成员关系, 比如作物按属来分, 绿豆、小豆、豇豆、饭豆等都属于豇豆属; 另外, 作物的品种名称和译名之间存在同义关系。
(4)根据数据库中类的约束关系定义本体概念的约束关系。对本体的概念建立约束, 可以保证本体概念的语法一致性、语义一致性及用户自定义的一致性。比如作物的株高、硬度、千粒重、耐涝性、抗寒性等都约束在一定的范围内, 这些作物的特性不会随着对象表达方式的不同而变化。同时, 约束关系的建立也有助于本体推理的实现。
(5)本体的形式化表达。这是利用本体建模工具建立本体的过程。本体的建模工具很多, 包括Oiled、WebOnto、OntoEdit、Proté gé 等[23]。其中Proté gé 是由斯坦福大学基于Java语言开发的一款开源的本体开发工具, 使用频率较高。
综合以上步骤, 使用Proté gé 4.3构建了农作物种质资源初始本体模型, 如图4所示(只显示部分模型)。
该本体模型由结构化数据库数据抽取而得到, 涉及种质资源收集、保存、分发、种质分类及属性等方面。种质资源的分类和数据库中基本保持一致。将属性单独列出来, 是考虑到种质资源属性包括共性和特性, 对于共性描述部分, 可以统一描述, 便于建立不同种质资源之间的关系。对于种质保存部分, 除了描述某种质资源当前的保存位置之外, 还增加了种质资源的地理和行政分布, 这便于和种质收集中的收集地点等建立联系。以本体的方式重新组织资源, 可将原有各相对独立数据库中的数据统一组织, 便于建立资源概念间的关系, 有利于提高资源信息共享的水平。
从农作物种质资源相关网站自动提取网站概念, 并对概念分类, 映射成本体的概念。比如对CGRIS网站进行概念抽取, 可以抽取出种业信息、农业知识、信息交流、优异种质、作物新品种、农业百科知识、作物病虫害知识、作物转基因科普、作物资源照片等概念。对这些概念归纳综合, 可以提取本体的概念, 这些概念可以分为种业信息、农业知识、专业名词、信息交流等大类, 种业信息又可分为优异种质、作物新品种和种子法规子类, 农业知识又可分为转基因科普、植物遗传资源科普、病虫害知识、百科知识等子类。此外, 还可以提取农作物种质资源的查询数据、图片数据和信息规范数据等。对概念提取分类后, 进行语义映射, 给概念赋以语义, 将得到的概念、关系及语义加入到初始本体中, 并更新概念间的关系, 最后进行形式化表达。完善后的农作物种质资源本体模型如图5所示。
非结构化的网站数据是动态数据, 包含了原有数据库中没有的信息, 其中会涉及到一些新的概念。将这些新概念补充到本体中, 可完善初始本体, 使本体的体系结构更加完整。比如种业信息中包含育种得到的新品种, 其新特性涉及的一些新概念需要加入到本体中, 可以对资源进行更深层次的描述。
通过以上方法, 构建了农作物种质资源本体模型, 但随着农作物种质资源工作的进展, 种质资源概念的内容、结构、存在形式也在不断变化, 某些术语的含义也会随之变化。农作物种质资源本体与变化的信息资源之间的一致性就有可能遭到破坏, 所以需要农作物种质资源本体概念的结构、关系不断调整、完善、改进和更新, 实现本体的进化[24]。种质资源本体的进化主要体现在以下几方面。
(1)学科自身发展的需要。由于种质资源学科自身的发展, 应用领域不断延伸, 产生新的学科生长点, 学科的知识结构发生变化, 因此需要根据学科发展需要对本体进行扩充, 使本体能体现学科发展过程中形成的新概念。另外, 本体进化并不意味着本体概念数量的积累, 更在于本体概念质的提升, 所以也要删除过时的、失效的概念[24]。
(2)新技术发展的需要。随着分子生物学和基因组学等新技术的发展, 种质资源鉴定工作过程中会出现一些概念的新特性, 需要对其不断丰富, 使其更加完整。
(3)新资源包含的新多样性特性。随着种质资源收集工作的推进, 尤其是从国外引进的一些新种质, 可能会含有新的资源多样性特性。另外, 通过分子标记等新技术进行种质创新, 会产生新作物、新品种、新类型和新材料, 这些新概念包含了新特性, 需要将这些新概念特性及时地补充到本体中, 对本体进行更新。
传统的本体构建方法, 为农作物种质资源本体构建提供了借鉴, 但不适合农作物种质资源的特点。结构化数据和非结构化数据相结合的本体构建方法与传统的本体构建方法比较, 有以下优点。
(1)从关系数据库中抽取数据建立初始本体, 准确高效。充分利用了农作物种质资源已有数据库数据, 减少了本体构建的工作量。利用面向对象的方法可简单高效地从数据库中抽取概念, 并建立概念间的关系。
(2)网站中非结构化数据的应用对初始本体起到补充作用。概念的提取采用半自动化方法, 更加高效。利用在线词典WordNet和网络语义资源Wikipedia进行语义映射, 使本体的概念和语义更加完整。
本研究只构建了种质资源本体模型, 种质资源领域涉及的概念非常多, 后期需要完善该模型, 使概念更加丰富。由于种质资源的特殊性, 它大部分集中在国家及地方种质库中, 获取种质资源信息的渠道非常有限, 有关种质资源信息的个人或者商业网站很少, 所以本研究采用的非结构化数据来源于农作物种质资源专业网站, 期待能有多样的种质资源网站数据。另外, 本研究探讨了本体进化的途径, 并没有真正在模型中体现出来, 希望随着研究工作的推进, 将本体进化的内容增加进去, 并研究合适的本体进化机制。
根据农作物种质资源的特点, 提出了一种半自动化的本体构建方法, 构建了农作物种质资源本体模型, 探讨了本体进化的途径。农作物种质资源本体的构建为种质资源的组织提供了新方式, 本体中丰富的语义便于知识发现, 从而提高资源的利用效率。
本体与传统数据库相比, 有很强的表达概念语义和获取知识的能力, 可以实现一致性检查、逻辑推理等, 利用本体可以在差异很大的系统之间实现交互, 实现的资源的集成共享。基于本体的数据库访问, 能够使用户基于统一的视图查询底层数据, 实现大规模数据的集成和访问。但目前真正能达到本体和数据库高效互访的系统还很少, 这也将是我们下一步研究的内容。
The authors have declared that no competing interests exist.
作者已声明无竞争性利益关系。The authors have declared that no competing interests exist.
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|