一. 知识抽取的概念知识抽取,即从不同来源、不同结构的数据中进行知识提取,形成知识(结构化数据)存入到知识图谱。大体的任务分类与对应技术如下图所示: 1. 知识抽取的子任务 命名实体识别 检测: 北京是忙碌的城市。 [北京]: 实体...
一. 知识表示历史1. 知识的概念知识表示就是对知识的一种描述,或者说是对知识的一组约定,一种计算机可以接受的用于描述知识的数据结构。它是机器通往智能的基础,使得机器可以像人一样运用知识。 知识具有相对正确性、不确定性、可表示性以及可...
一. 本体论1. 定义维基:本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达(formal representation)。 本体就是对那些可能相对于某一智能体(agent)或智能体群体而存在的概念和关系的一种描述。 ...
一. 简介前面使用 Silk 工具进行知识融合。但实际操作中发现,当数据量较大时,会出现内存爆掉的情况。同时由于 Silk 的 SPARQL 查询语句比较复杂,当数据量大时,获取同样的数据要慢上很多倍。因此我这里将数据分成一个一个的小...
一. 简介silk 是一个集成异构数据源的开源框架。编程语言为Python。其特点为: 提供了专门的 Silk-LSL 语言来进行具体处理。 提供图形化用户界面- Silk Workbench,用户可以很方便的进行记录链接。 Si...
一. 简介 Apache Jena是专门用于语义网本体操作的开源Java框架,其提供RDF和SPARQL API,来查询、修改本体和进行本体推理,并且提供了TDB和Fuseki来存储和管理三元组。 Fuseki是Jena提供的SP...
一. 简介Direct mapping 本质上是通过编写启发式规则将数据库中的表转换为RDF三元组, 但该方式灵活性不强。这里我们用 D2RQ 工具,它的主要功能是提供以虚拟的、只读的RDF图形式进入到关系型数据库中。也就是说比如你通...
一. 简介 在数据爬取过程中,想尝试复现一个经典的神经网络关系抽取模型。经过看论文筛选最终确定清华的Neural Relation Extraction with Selective Attention over Instances。...
一. 简介 前面我们爬取了百度百科的数据,获取400W的数据大概需要10天左右。接下来我们需要把它存到图数据库里来,这里我还是使用neo4j,没选Jena的原因是我个人认为在没有本体模型的情况下,在neo4j上好好的建立上下位关系也许...
一. 简介之前做的知识图谱还是太小,而且单一领域的图谱构建技术和通用百科类图谱间的技术差别也较大,因此根据前人的论文,尝试构建百科类知识图谱。 为了构建中文百科类知识图谱,我们参考漆桂林老师团队做的zhishi.me。目标是包含百度百...