大数据和人工智能：要警惕披着科学外衣的伪科学

发布时间：2022-01-06 16:43:46 所属栏目：交互来源：互联网

导读：最近，关于人工智能、大数据的很多案例近乎神话。在我看来，这些神话是违反科学的。有些朋友不理解，我大体说说我的想法。科学原理的重要作用是告诉我们：什么是不可能的。根据万有引力定律，我们会知道：武侠小说中那些飞檐走壁、水上漂的大侠是不存在的。

　最近，关于人工智能、大数据的很多案例近乎神话。在我看来，这些“神话”是违反科学的。有些朋友不理解，我大体说说我的想法。

　　科学原理的重要作用是告诉我们：什么是不可能的。根据万有引力定律，我们会知道：武侠小说中那些飞檐走壁、水上漂的大侠是不存在的。能量（质能）守恒定律告诉我们：能量只能发生转化，不可能凭空产生、也不可能无缘无故地消失。

　　更有意思的是热力学第二定律。它告诉我们：尽管能量可以转化，却不可以任意转化。例如，热量不可能自发地从温度低的物体传递到温度高的物体。但这种说法不严格，严格的说法是：孤立系统的熵永不减小。这个定律告诉我们：虽然“永动机”不违反能量守恒定律，现实中却是不存在的。

　　1948年，申农将统计物理中熵的概念，引申到通信领域并开创了“信息论”这门学科。申农的理论，不仅可以完美地描述热力学第二定律，还拓展了人们对物理世界的认识：对“麦克斯韦妖”的解释，将信息熵和物理学的熵完美地融合在一起。

　　对于智能制造，熵的概念应该有更大的用处。我认为：根据封闭系统“熵”不可能增加的原则，用通用算法处理数据，所包含的信息量不可能增加。

　　我们知道，数据分析和人工智能都与知识相关。其中，知识就是一种必然的联系。联系，就意味着变量不独立。例如，F=Ma意味着：用1牛顿的力推动1千克的质量，加速度就会为1。不独立，就意味着信息可以压缩。我们从大数据集合中发现知识，其实是在做“信息压缩”或者“降维”的尝试。如果这种“信息压缩”或者“降维”在大数据之外仍然合适，就可以看作一种知识。利用这种知识，就可以用少的信息获得更多的信息。

　　显然，信息是不是“可压缩”是客观规律决定的，非人力所谓。在《三国演义》中，司马懿看到蜀国大营中落下一颗流星，就判断“将星陨落”、诸葛亮死了。这种联系是不是客观规律，故而只能是迷信。

　　多少数据才能发现规律呢？理论上将，如果问题真的很复杂，所需数据应该是自变量的指数函数。这就是大数据能发挥作用的原因。所以，从数据中发现规律很难、相关因素越多越复杂。这里有个特例：一种是规律本质是简单的。另外，加入了人已有的认识，也会把问题简化——从某种意义说，相当于加入了新的数据进行降维处理。

　　现在回到文章的主题。我对大数据、人工智能领域的许多报道嗤之以鼻，一个重要的原因是：少量数据，一般得不到规律性的结果——除非这个问题本身就很简单。但如果问题本身就很简单、规律很明晰，过去的人就发现不了吗？我更倾向于另一种可能：这些文章是“高射炮打蚊子”，用复杂方法解决简单问题，就像任正非所言：用展示锄头代替种地。第三种可能就是把偶然联系当作规律，而不用科学的态度去论证。

　　有人自称他的数据分析方法用了阿尔法狗的算法，得到了规律。但阿尔法狗关键首先是计算量的问题、不是信息量的问题。信息不足是算不出来的。两者怎么能相提并论呢？我听到一种说法：现在的骗子都改名叫大师了。有些大师的工作，真的和算命差不多。

（编辑：威海站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

物联网与人工智能的完	IIoT将完全改变石油和
物联网NB-IoT与LoRa技	全国首个共享电池系统