中科院院士梅宏：大数据对计算体系带来的挑战以及应对策略

发布时间：2019-05-30 20:50:38 所属栏目：教程来源：王刚

导读：在贵州举办的2019年数博会吸引了国内外各界目光，围绕大数据最新技术创新与成就，诸多学界、产业界、政界人士纷纷参与交流。在5月25日的5G+大数据推动智慧社会数字化转型论坛上，中科院院士梅宏发表了精彩演讲，重点谈到了大数据对计算体系带来的挑战以及

副标题[/!--empirenews.page--]

在贵州举办的2019年数博会吸引了国内外各界目光，围绕大数据最新技术创新与成就，诸多学界、产业界、政界人士纷纷参与交流。在5月25日的“5G+大数据推动智慧社会数字化转型论坛”上，中科院院士梅宏发表了精彩演讲，重点谈到了大数据对计算体系带来的挑战以及应对之法。

梅宏作为大数据领域权威专家，对大数据学术研究、工具开发等方面有着深入的理解。他提到，大数据让信息技术整个体系进入一个重构的前夜，大数据的管理、处理方式正在发生深刻改变。比如，在芯片上探讨存算一体是一种可能的方向;比如，软件定义可以做很多事情;比如，软件开源+硬件开放有可能产生颠覆式机遇。

他提到了个人对于大数据的理解，谈到了三个现实中的挑战。但在挑战背后，他们的团队已经集结了最好的高校和阿里这种巨头企业的技术，做完了三批课题。未来，将追求高时效、低时延，多计算模型的融合，打造出更多核心、关键、原创的技术。

演讲原文如下，雷锋网做了不改变原意的编辑与整理：

大数据导致了一个现象，就是信息技术整个体系进入一个重构前夜，实际上给了我们一个颠覆式发展的一种机遇。因为它和过去的东西确实不太一样了。

个人对大数据的理解

我想分四个方面讲。

第一，应用需求。大数据的应用需求，使得我们的计算机体系结构可能面临重构的需要。比如，过去在单机体系结构，我们知道计算机处理的方式是强调I，强调O，所以我们是以CPU的处理能力为核心，数据是围绕处理能力来走的。现在我们又出现了很多新的一些技术，比如新型存储介质、新型运算器件，它使得我们的体系结构可能就会有一定的变革。怎么变革?会不会出现以数据为核心而计算围在周边的一种结构。现在就在芯片上探讨存算一体——这是一种可能的方向。

第二，云计算模式领域化、资源泛载化，资源平台化的大态势。我们希望在服务质量提升、新型硬件管理、极致效能的追求方面做很多工作。同时我们也看到从云向边转变，这种云端融合，云边端结合的新型计算也在涌现，还有软件定义对整个世界所形成的影响。我们对数据管理、软件开发运行、数据分析等等都有很多要求，都需要很多新的东西，这与过去是不一样的。

第三，通信。5G能解决的通信问题，所以我们网络通信还需要更好的带宽、移动、泛载的发展。对于带宽的问题，移动、泛载的问题，我们看到整个信息技术体系按照过去的发展套路，实际理论上还有很多值得探讨的空间，在基础器件上也有很多探讨的空间，比如大数据组织、分析等等相关技术理论都有待突破。基础器件，高性能、高时效、高吞吐等极端化的大数据需求，使得我们需要高通量的处理芯片，需要多通道数据化、可视设备等等。

第四，软件开源，硬件开放，正在导致我们产业生态发生一些变化。实际上，颠覆式发展的机遇可能就在这个地方。

观念变化：大数据的管理、处理

管理是数据的存储、组织，而处理就是把数据并行处理为内容。

对于管理而言，比如说传统数据库、关系型数据库，它的目标是什么?应用的通用性、数据的一致性、应用需求的处理方式和响应时间等方面都不同，使得很难有一种通用管理的方式。

由于无法定义一个模式，一致性也没法保持，不能够事先定义数据模式，就没办法保持它的事务性等数据的一致性。从性能上讲，由于单一表格存储、高性能是非常难以实现的，这就使得对大规模、多表关联查询及复杂分析类型的SQL查询性能严重下降，这就是在大数据时代传统数据库做不了的事。

对于处理而言，实际上大体分成三个阶段：前大数据时代，大数据早期、现在。

早期都是关系型数据库再到后来的SQL，这是在管理层面走过的一些路径。从分析上面，比如说面向大数据分析软件、深度学习的一些发展，大体上是把前面的东西再做一个总结。当然，支撑的东西都是在计算里面的分布式处理和实时集散这些相关的概念，都是计算基础的支撑。

传统关系数据库虽然还在广泛使用，结构化数据还是我们很有用的一些东西。但是NoSQL和NewSQL都在快速发展，我们可以看到2011年的NoSQL和NewSQL的比例在增长，市场份额在扩大。也就使得我们数据库管理系统发展观念的转变，传统关系数据库一招通吃天下，变成了我们在一个领域里面个通用的平台。

大数据处理——为什么要谈这件事情?

大数据和HaDoop不管发展如何，单台计算能力都是有限的。所以我们必须要并行处理，没办法做一台计算机满足所有的处理需求。比如最早出现的HaDoop就是批处理，批处理好处是什么?吞吐率高，适用于海量预存数据的处理。其次是流处理，适用于在线型、产生速度快的时延数据处理。还有一种新的数据类型就是图处理，用巨型的图数据，比如以社交网络为代表的大量都是图数据，亿万个节点，这样大型的社交网络图怎么办。所以现在这些系统很多，都是开源，但是没有看到一个能满足所有要求的一种处理模型。

再看现在存在的问题，比如说Spark，它是一个批处理平台，它是用VP的技术处理流模式，把流式计算用时间片切开，分解成一些小批量，本质上还是批处理，只是每一批小一点。

图处理。图数据最大的问题就是并行，它本身量很大，大量的数据是冲突的，而且互相依赖性比较高，通信开销就比较大。核心的一个问题，从数学上，如果能完成一个很好的图分割，可能能够完成这种图的并行处理。大体上最终也是要追求并行处理。

所以可以看到，回顾我们前面谈到的问题，我们会说面临一些挑战。这个挑战从三个维度来说：

第一，数据处理方式和数据来源的问题。我们提到了面临数据来源有离线数据、在线、混合处理的需求，方式就出现了批处理、流处理和混合处理。从计算架构角度、系统结构的角度看，我们过去做的传统计算最大的问题是计算产生的内存要求，内存要从外存取数据，所以内外交叠浪费很多时间。

所以我们还出现了内存计算，既然这样，就可以搞一个大内存，把所有数据装在内存里面，这是一种方式。

第二，新型的架构。通过综合GPU，还有其他的TPU、数据流等等，构建新型的计算架构。

第三，数据类型本身。数据类型本身有文档等各种模式，我们目前看到的单一系统是没有办法去处理这种混合负载的，而混合负载的处理，实际上是存在着大量的需求。

大数据处理三大挑战

挑战一：怎么样高效处理各类混合负载。这是当前我们面临的一个挑战。什么叫混合处理的需求?

（编辑：威海站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

手机控制电脑软件,教您	系统文件,教您NTFS和F
耳熟能详的五大seo优化	通过分析关键词排名原