机器学习算法的7个关键点

发布时间：2021-02-02 11:51:10 所属栏目：评论来源：互联网

导读：这个任务看起来是解决了，实际上这样流水线的方案背后隐藏着许多问题。例如多个系统之间互相独立和割裂，中间数据频繁落盘进行系统间的数据传递；图分析的程序不是声明性语言，没有固定范式；图的规模影响机器学习框架的效率等等。这些都是我们在现实图计算

这个任务看起来是解决了，实际上这样流水线的方案背后隐藏着许多问题。例如多个系统之间互相独立和割裂，中间数据频繁落盘进行系统间的数据传递；图分析的程序不是声明性语言，没有固定范式；图的规模影响机器学习框架的效率等等。这些都是我们在现实图计算场景中常遇到的问题，总结一下可以概括为以下三点：

图计算问题十分复杂，计算模式多样，解决方案碎片化。
图计算学习难度强，成本大，门槛高。
图的规模和数据量大，计算复杂，效率低。

为了解决以上的问题，我们设计并研发了一站式开源图计算系统：GraphScope。

四 GraphScope 是什么

GraphScope 是阿里巴巴达摩院智能计算实验室研发并开源的一站式图计算平台。依托于阿里海量数据和丰富场景，与达摩院的高水平研究，GraphScope 致力于针对实际生产中图计算的上述挑战，提供一站式高效的解决方案。

GraphScope 提供 Python 客户端，能十分方便的对接上下游工作流，具有一站式、开发便捷、性能极致等特点。它具有高效的跨引擎内存管理，在业界首次支持 Gremlin 分布式编译优化，同时支持算法的自动并行化和支持自动增量化处理动态图更新，提供了企业级场景的极致性能。在阿里巴巴内部和外部的应用中，GraphScope 已经证明在多个关键互联网领域（如风控，电商推荐，广告，网络安全，知识图谱等）实现重要的业务新价值。

GraphScope 集合了达摩院的多项学术研究成果，其中的核心技术曾获得数据库领域顶级学术会议 SIGMOD2017 最佳论文奖、VLDB2017 最佳演示奖、VLDB2020 最佳论文提名奖、世界人工智能创新大赛SAIL奖。GraphScope 的交互查询引擎的论文也已被 NSDI 2021 录用，即将发表。还有其它围绕 GraphScope 的十多项研究成果发表在领域顶级的学术会议或期刊上，如 TODS、SIGMOD、VLDB、KDD 等。

1 架构介绍

可以预见，图计算将在下一代人工智能的各种应用中发挥重要作用，包括反欺诈，智能物流，城市大脑，生物信息学，公共安全，公共卫生，城市规划，反洗钱，基础设施，推荐系统，金融技术和供应链等领域。

三图计算现状

经过这些年的发展，已有针对各种图计算需求的多种系统和工具。例如在交互查询方面，有图数据库Neo4j、ArangoDB和OrientDB等、也有分布式系统和服务JanusGraph、Amazon Neptune和Azure Cosmos DB等；在图分析方面，有 Pregel、Apache Giraph、Spark GraphX、PowerGraph 等系统；在图学习上有 DGL、pytorch geometric 等。尽管如此，面对丰富的图数据和多样化的图场景，有效利用图计算增强业务效果依然面临着巨大的挑战：

现实生活中的图计算场景多样，且通常非常复杂，涉及到多种类型的图计算。现有的系统主要是为特定类型的图计算任务设计的。因此，用户必须将复杂的任务分解为涉及许多系统的多个作业。在系统之间可能会产生大量例如集成、IO、格式转换、网络和存储方面的额外开销。

难以开发大型图计算的应用。为了开发图计算的应用，用户通常使用简单易用的工具（例如 Python 中的 NetworkX 和 TinkerPop）在一台机器上从小规模图数据开始。但是，对于普通用户而言，扩展其单机解决方案到并行环境处理大规模图是极其困难的。现有的用于大规模图的分布式系统通常遵循不同的编程模型，并且缺乏单机库（例如 NetworkX）中丰富的即用算法/插件库。这使得分布式图计算的门槛过高。

处理大图的规模和效率仍然有限。例如，由于游历模式的高度复杂性，现有的交互式图查询系统无法并行执行 Gremlin 查询。对于图分析系统，传统的点中心编程模型使图级别的现有优化技术不再可用。此外，许多现有系统也基本未在编译器级别上做过优化。

下面我们通过一个具体的示例看看现有系统的局限性。

1 示例：论文分类预测

数据集 ogbn-mag 是一个来自于微软学术的数据集。数据中包含四种类型的点，分别表示论文、作者、机构、研究领域；在这些点之间有表示关系的四种边：分别是作者 “ 撰写 ” 了论文，论文 “ 引用 ” 了另一篇论文，作者 “ 隶属于 ” 某个机构，和论文 “ 属于 ” 某个研究领域。这个数据很自然的可以用图来建模。

一个用户期望在这个图上对 2014-2020 年间发表的 “ 论文 ” 做一个分类任务，期望能根据论文在数据图中的结构属性、自身的主题特征、以及 kcore、三角计数 triangle-counting 等团聚度的衡量参数，将其归类并预测文章的主题类别。实际上，这是一个十分常见和有意义的任务，这个预测由于考虑了论文的引用关系和论文的主题，可以帮助研究人员更好的发现领域内的潜在合作和研究热点。

让我们分解一下这个计算任务：首先我们需要对论文及其相关的点边做一个根据年份的筛选，再需要在这个图上计算 kcore、triangle-counting 等全图计算，最后将这两个参数和图上的原始特征一起，放入一个机器学习框架进行分类训练和预测。我们发现当前已有的系统并不能很好的端到端解决这个问题，我们只能通过将多个系统组织成一个 pipeline 的形式运行：

（编辑：威海站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

突围之路一个中国制造	锂电池终局，咋看？
谷歌向远程办公员工给	小米10 全版本缺货，要

机器学习算法的7个关键点

四 GraphScope 是什么

三 图计算现状

三图计算现状