加入收藏 | 设为首页 | 会员中心 | 我要投稿 威海站长网 (https://www.0631zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 评论 > 正文

机器学习算法的7个关键点

发布时间:2021-02-02 11:51:10 所属栏目:评论 来源:互联网
导读:这个任务看起来是解决了,实际上这样流水线的方案背后隐藏着许多问题。例如多个系统之间互相独立和割裂,中间数据频繁落盘进行系统间的数据传递;图分析的程序不是声明性语言,没有固定范式;图的规模影响机器学习框架的效率等等。这些都是我们在现实图计算

这个任务看起来是解决了,实际上这样流水线的方案背后隐藏着许多问题。例如多个系统之间互相独立和割裂,中间数据频繁落盘进行系统间的数据传递;图分析的程序不是声明性语言,没有固定范式;图的规模影响机器学习框架的效率等等。这些都是我们在现实图计算场景中常遇到的问题,总结一下可以概括为以下三点:

  • 图计算问题十分复杂,计算模式多样,解决方案碎片化。

  • 图计算学习难度强,成本大,门槛高。

  • 图的规模和数据量大,计算复杂,效率低。

为了解决以上的问题,我们设计并研发了一站式开源图计算系统:GraphScope。

四  GraphScope 是什么

GraphScope 是阿里巴巴达摩院智能计算实验室研发并开源的一站式图计算平台。依托于阿里海量数据和丰富场景,与达摩院的高水平研究,GraphScope 致力于针对实际生产中图计算的上述挑战,提供一站式高效的解决方案。

GraphScope 提供 Python 客户端,能十分方便的对接上下游工作流,具有一站式、开发便捷、性能极致等特点。它具有高效的跨引擎内存管理,在业界首次支持 Gremlin 分布式编译优化,同时支持算法的自动并行化和支持自动增量化处理动态图更新,提供了企业级场景的极致性能。在阿里巴巴内部和外部的应用中,GraphScope 已经证明在多个关键互联网领域(如风控,电商推荐,广告,网络安全,知识图谱等)实现重要的业务新价值。

GraphScope 集合了达摩院的多项学术研究成果,其中的核心技术曾获得数据库领域顶级学术会议 SIGMOD2017 最佳论文奖、VLDB2017 最佳演示奖、VLDB2020 最佳论文提名奖、世界人工智能创新大赛SAIL奖。GraphScope 的交互查询引擎的论文也已被  NSDI 2021 录用,即将发表。还有其它围绕 GraphScope 的十多项研究成果发表在领域顶级的学术会议或期刊上,如 TODS、SIGMOD、VLDB、KDD 等。

1  架构介绍
 

可以预见,图计算将在下一代人工智能的各种应用中发挥重要作用,包括反欺诈,智能物流,城市大脑,生物信息学,公共安全,公共卫生,城市规划,反洗钱,基础设施,推荐系统,金融技术和供应链等领域。

三  图计算现状

经过这些年的发展,已有针对各种图计算需求的多种系统和工具。例如在交互查询方面,有图数据库Neo4j、ArangoDB和OrientDB等、也有分布式系统和服务JanusGraph、Amazon Neptune和Azure Cosmos DB等;在图分析方面,有 Pregel、Apache Giraph、Spark GraphX、PowerGraph 等系统;在图学习上有 DGL、pytorch geometric 等。尽管如此,面对丰富的图数据和多样化的图场景,有效利用图计算增强业务效果依然面临着巨大的挑战:

  • 现实生活中的图计算场景多样,且通常非常复杂,涉及到多种类型的图计算。现有的系统主要是为特定类型的图计算任务设计的。因此,用户必须将复杂的任务分解为涉及许多系统的多个作业。在系统之间可能会产生大量例如集成、IO、格式转换、网络和存储方面的额外开销。

  • 难以开发大型图计算的应用。为了开发图计算的应用,用户通常使用简单易用的工具(例如 Python 中的 NetworkX 和 TinkerPop)在一台机器上从小规模图数据开始。但是,对于普通用户而言,扩展其单机解决方案到并行环境处理大规模图是极其困难的。现有的用于大规模图的分布式系统通常遵循不同的编程模型,并且缺乏单机库(例如 NetworkX)中丰富的即用算法/插件库。这使得分布式图计算的门槛过高。

  • 处理大图的规模和效率仍然有限。例如,由于游历模式的高度复杂性,现有的交互式图查询系统无法并行执行 Gremlin 查询。对于图分析系统,传统的点中心编程模型使图级别的现有优化技术不再可用。此外,许多现有系统也基本未在编译器级别上做过优化。

下面我们通过一个具体的示例看看现有系统的局限性。

1  示例:论文分类预测

数据集 ogbn-mag 是一个来自于微软学术的数据集。数据中包含四种类型的点,分别表示论文、作者、机构、研究领域;在这些点之间有表示关系的四种边:分别是作者 “ 撰写 ” 了论文,论文 “ 引用 ” 了另一篇论文,作者 “ 隶属于 ” 某个机构,和论文 “ 属于 ” 某个研究领域。这个数据很自然的可以用图来建模。

一个用户期望在这个图上对 2014-2020 年间发表的 “ 论文 ” 做一个分类任务,期望能根据论文在数据图中的结构属性、自身的主题特征、以及 kcore、三角计数 triangle-counting 等团聚度的衡量参数,将其归类并预测文章的主题类别。实际上,这是一个十分常见和有意义的任务,这个预测由于考虑了论文的引用关系和论文的主题,可以帮助研究人员更好的发现领域内的潜在合作和研究热点。

让我们分解一下这个计算任务:首先我们需要对论文及其相关的点边做一个根据年份的筛选,再需要在这个图上计算 kcore、triangle-counting 等全图计算,最后将这两个参数和图上的原始特征一起,放入一个机器学习框架进行分类训练和预测。我们发现当前已有的系统并不能很好的端到端解决这个问题,我们只能通过将多个系统组织成一个  pipeline 的形式运行:

(编辑:威海站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读