这个任务看起来是解决了,实际上这样流水线的方案背后隐藏着许多问题。例如多个系统之间互相独立和割裂,中间数据频繁落盘进行系统间的数据传递;图分析的程序不是声明性语言,没有固定范式;图的规模影响机器学习框架的效率等等。这些都是我们在现实图计算场景中常遇到的问题,总结一下可以概括为以下三点:
为了解决以上的问题,我们设计并研发了一站式开源图计算系统:GraphScope。
四 GraphScope 是什么
GraphScope 是阿里巴巴达摩院智能计算实验室研发并开源的一站式图计算平台。依托于阿里海量数据和丰富场景,与达摩院的高水平研究,GraphScope 致力于针对实际生产中图计算的上述挑战,提供一站式高效的解决方案。
GraphScope 提供 Python 客户端,能十分方便的对接上下游工作流,具有一站式、开发便捷、性能极致等特点。它具有高效的跨引擎内存管理,在业界首次支持 Gremlin 分布式编译优化,同时支持算法的自动并行化和支持自动增量化处理动态图更新,提供了企业级场景的极致性能。在阿里巴巴内部和外部的应用中,GraphScope 已经证明在多个关键互联网领域(如风控,电商推荐,广告,网络安全,知识图谱等)实现重要的业务新价值。
GraphScope 集合了达摩院的多项学术研究成果,其中的核心技术曾获得数据库领域顶级学术会议 SIGMOD2017 最佳论文奖、VLDB2017 最佳演示奖、VLDB2020 最佳论文提名奖、世界人工智能创新大赛SAIL奖。GraphScope 的交互查询引擎的论文也已被 NSDI 2021 录用,即将发表。还有其它围绕 GraphScope 的十多项研究成果发表在领域顶级的学术会议或期刊上,如 TODS、SIGMOD、VLDB、KDD 等。
1 架构介绍
可以预见,图计算将在下一代人工智能的各种应用中发挥重要作用,包括反欺诈,智能物流,城市大脑,生物信息学,公共安全,公共卫生,城市规划,反洗钱,基础设施,推荐系统,金融技术和供应链等领域。
三 图计算现状
经过这些年的发展,已有针对各种图计算需求的多种系统和工具。例如在交互查询方面,有图数据库Neo4j、ArangoDB和OrientDB等、也有分布式系统和服务JanusGraph、Amazon Neptune和Azure Cosmos DB等;在图分析方面,有 Pregel、Apache Giraph、Spark GraphX、PowerGraph 等系统;在图学习上有 DGL、pytorch geometric 等。尽管如此,面对丰富的图数据和多样化的图场景,有效利用图计算增强业务效果依然面临着巨大的挑战:
下面我们通过一个具体的示例看看现有系统的局限性。
1 示例:论文分类预测
数据集 ogbn-mag 是一个来自于微软学术的数据集。数据中包含四种类型的点,分别表示论文、作者、机构、研究领域;在这些点之间有表示关系的四种边:分别是作者 “ 撰写 ” 了论文,论文 “ 引用 ” 了另一篇论文,作者 “ 隶属于 ” 某个机构,和论文 “ 属于 ” 某个研究领域。这个数据很自然的可以用图来建模。
一个用户期望在这个图上对 2014-2020 年间发表的 “ 论文 ” 做一个分类任务,期望能根据论文在数据图中的结构属性、自身的主题特征、以及 kcore、三角计数 triangle-counting 等团聚度的衡量参数,将其归类并预测文章的主题类别。实际上,这是一个十分常见和有意义的任务,这个预测由于考虑了论文的引用关系和论文的主题,可以帮助研究人员更好的发现领域内的潜在合作和研究热点。
让我们分解一下这个计算任务:首先我们需要对论文及其相关的点边做一个根据年份的筛选,再需要在这个图上计算 kcore、triangle-counting 等全图计算,最后将这两个参数和图上的原始特征一起,放入一个机器学习框架进行分类训练和预测。我们发现当前已有的系统并不能很好的端到端解决这个问题,我们只能通过将多个系统组织成一个 pipeline 的形式运行:

(编辑:威海站长网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|