加入收藏 | 设为首页 | 会员中心 | 我要投稿 威海站长网 (https://www.0631zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 移动互联 > 评测 > 正文

2019 年,Python 数据科学该怎么学

发布时间:2019-03-22 05:39:04 所属栏目:评测 来源:Thomas Nield
导读:去年我决定从传统水利行业跨行到 Python 领域的时候,满脑子都是困惑与担心,犹豫放弃所学多年的专业知识值不值得,担心万一转行失败怎么办,纠结实际工作比想象中的难怎么办。 没遇到指点迷津的大佬,只好网上各种搜,众说纷纭,最后在「要不要转行」这个
副标题[/!--empirenews.page--]

去年我决定从传统水利行业跨行到 Python 领域的时候,满脑子都是困惑与担心,犹豫放弃所学多年的专业知识值不值得,担心万一转行失败怎么办,纠结实际工作比想象中的难怎么办。

没遇到指点迷津的大佬,只好网上各种搜,众说纷纭,最后在「要不要转行」这个问题上浪费了很长时间。在跨过这个坎之后,回头来看以前那些问题,思路清晰很多。

其实,在开始阶段,相比具体的专业知识,更重要的是大方向把握。好比,你告诉我旅途上的风景有多么多么美,但我想先知道是哪条路,好判断能不能去到。

最近看到一篇叫「2019 年学习数据科学是什么感受」的文章,深有感触。作者是 Thomas Nield,美国西南航空公司的商务顾问,著有《Getting Started with SQL (O'Reilly) 》等书,经验丰富的 IT 大牛。

文章中他 以一问一答的形式,给那些想要踏上数据科学之路的人,提了一些中肯的建议。里面有些观点很有价值,特节选翻译成文,这里分享给你。

背景:假设你是一名「表哥」,平常工作主要使用 Excel,数据透视表、制图表这些。最近了解到未来很多工作岗位会被人工智能会取代,甚至包括你现在的工作。你决定开始学习数据科学、人工智能和机器学习,Google 搜索「如何成为数据科学家」找到了下面这样一份学习路线图,然后你就开始向作者大牛请教。

Q:我是否真的必须掌握这个图表中的所有内容,才能成为数据科学家?

2019 年,Python 数据科学该怎么学

成为一名数据科学家的必须技能(截至2013年)

A:简单说,不需要全部。这是 2013 年的路线图,有点过时了,里面连 TensorFlow 都没有,基本没有人再参考。完全可以划掉这个图中的一些路径,前几年「数据科学」划分地过于分散,采用其他方法会更好。

Q:听你这样说就不那么紧张了,那么我应该回到学校继续深造,然后获得一个数据科学硕士学位吗? 我看很多数据科学家至少都是硕士。

A:天哪,你为什么这样做?不要被「数据科学」这些高大上的术语给唬住了,这些术语主要是用来重新定义一些业务分类。事实上,学校教授的东西基本都是过时的技术,不如选择 Coursera 或 Khan Academy 这些在线自学网站。

Q:那么我该如何开始自学呢?LinkedIn上的人说应该先学习 Linux ,Twitter 的人建议先学习 Scala,而不是 Python 或 R

A:不要信那些人的话。

Q:好的,R怎么样?不少人喜欢它。

A:R 擅长数学建模,但 Python 能做的更多,比如数据处理和搭建 Web 服务,总之Python 比 R 的学习投资回报率高。

Q:R 在 Tiobe上的排名仍然很高,而且拥有大量的社区和资源,学它有什么不好?

如果你只是对数学感兴趣,使用 R 完全没问题,配合 Tidyverse 包更是如虎添翼。但数据科学的应用范围远超数学和统计学。所以相信我,Python 在 2019 年更值得学,学它不会让你后悔。

Q:Python 难学么?

A:Python 是一种简单的语言,可以帮你可以自动完成许多任务,做一些很酷的事情。不过数据科学不仅仅是脚本和机器学习,甚至不需要依赖 Python 。

Q:什么意思?

A:Python 这些只是工具,使用这些工具可以从数据中获取洞察力,这个过程有时会涉及到机器学习,但大部分时间没有。简单地来说,创建图表也可以算是数据科学,所以你甚至不必学习 Python,使用 Tableau 都行,他们宣称使用他们的产品就可以「成为数据科学家」。

Q:好吧,但数据科学应该不仅仅是制作出漂亮的可视化图表,Excel 中都可以做到,另外学习编程应该很有用,告诉我一些 Python 方面的知识吧

A:学习 Python,你需要学习一些库,比如用于操作 DataFrame 的 Pandas 、制作图表的 Matplotlib,实际上更好的选择是 Plotly,它用了 d3.js。

Q:我能懂一些,但什么是 DataFrame?

A:它是一种有行和列的数据结构,类似 Excel 表,使用它可以实现很酷的转换、透视和聚合等功能。

Q:那 Python 与 Excel 有什么不同?

A:大不相同,你可以在 Jupyter Notebook 中完成所有操作,逐步完成每个数据分析阶段并可视化,就像你正在创建一个可以与他人分享的故事。毕竟,沟通和讲故事是数据科学的重要组成部分。

Q:这听起来和 PowerPoint 没什么区别啊?

A:当然有区别,Jupyter Notebook 更自动简洁,可以轻松追溯每个分析步骤。有些人不太喜欢它,因为代码不是很实用。如果你想做一款软件产品,更好的方法是使用其他工具模块化封装代码。

Q:那么数据科学跟软件工程也有关系么?

A:也可以这么说,但不要走偏,学习数据科学最需要的是数据。初学的最佳方式是网络爬虫,抓取一些网页,使用 Beautiful Soup 解析它生成大量非结构化文本数据下载到电脑上。

Q:我以为学习数据科学是做表格查询而不是网页抓取的工作,所以我刚学完一本 SQL 的书,SQL 不是访问数据的典型方式吗?

A:好吧,我们可以使用非结构化文本数据做很多很酷的事情。比如对社交媒体帖子上的情绪进行分类或进行自然语言处理。NoSQL 非常擅长存储这种类型的数据。

Q:我听说过 NoSQL 这个词,跟 SQL 、大数据有什么关系?

A:大数据是 2016 年的概念,已经有点过时了,现在大多数人不再使用这个术语。NoSQL 是大数据的产物,今天发展成为了像 MongoDB 一样的平台。

Q:好的,但为什么称它为 NoSQL?

A:NoSQL 代表不仅是 SQL,它支持关系表之外的数据结构,不过 NoSQL 数据库通常不使用 SQL,有专门的查询语言,简单对比一下 MongoDB 和 SQL 查询语言:

2019 年,Python 数据科学该怎么学

Q:这太可怕了,你意思是每个 NoSQL 平台都有自己的查询语言?SQL 有什么问题?

A:SQL 没有任何问题,它很有价值。不过这几年非结构化数据是热潮,用它来做分析更容易。需强调的是,尽管SQL 难学,但它是一种非常通用的语言。

Q:好的,我可以这样理解么: NoSQL 对数据科学家来说不像 SQL 那么重要,除非工作中需要它?

A:差不多,除非你想成为一名数据工程师。

Q:数据工程师?

(编辑:威海站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读