一. 简介 在数据爬取过程中,想尝试复现一个经典的神经网络关系抽取模型。经过看论文筛选最终确定清华的Neural Relation Extraction with Selective Attention over Instances。...
一. 简介 前面我们爬取了百度百科的数据,获取400W的数据大概需要10天左右。接下来我们需要把它存到图数据库里来,这里我还是使用neo4j,没选Jena的原因是我个人认为在没有本体模型的情况下,在neo4j上好好的建立上下位关系也许...
一. 简介之前做的知识图谱还是太小,而且单一领域的图谱构建技术和通用百科类图谱间的技术差别也较大,因此根据前人的论文,尝试构建百科类知识图谱。 为了构建中文百科类知识图谱,我们参考漆桂林老师团队做的zhishi.me。目标是包含百度百...
一. 简介图数据库是基于图论实现的一种新型NoSQL数据库。它的数据数据存储结构和数据的查询方式都是以图论为基础的。图论中图的节本元素为节点和边,对应于图数据库中的节点和关系。 Neo4j 是由 Java 实现的开源 NoSQL 图数...
一. 简介前面完成了针对结构化数据和半结构化数据的知识抽取工作,本节我们进行基于Deepdive框架的非结构化文本关系抽取。所采用的文本来自于百度百科的人物介绍。本次实战基于OpenKG上的支持中文的deepdive:斯坦福大学的开源...
一. 简介 本次我们基于浙江大学在openKG上提供的基于elasticsearch的KBQA实现及示例,我们将其精简并将应用到自己的知识图谱上。 ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用...
一. 简介基于浙江大学在openKG上提供的基于REfO的KBQA实现及示例。代码部分浙大方面已经完成绝大部分,这里主要将其应用到自己的知识图谱上。在运行KBQA代码前,应按照前面的教程将电影类知识图谱导入到Jena的TDB数据库中,...
一. 简介结构化数据到RDF由两种主要方式,一个是通过direct mapping,另一个通过R2RML语言这种,基于R2RML语言的方式更为灵活,定制性强。对于R2RML有一些好用的工具,此处我们使用d2rq工具,它基于R2RML-...
一. 简介本文章针对半结构化数据的获取,介绍基于scrapy构建的百度百科爬虫和互动百科爬虫。同时为了练手还根据教程制作了基于BeautifulSoup和urllib2的百度百科爬虫、微信公众号爬虫和虎嗅网爬虫。 目前百度百科爬虫,爬...
一、准备工作VirtualBox下载地址 https://www.virtualbox.org/wiki/Downloads Ubuntu下载地址 https://cn.ubuntu.com/download PS~ 如win1...