数据科学是对数据的科学研究,可用来获取知识。该领域结合了多个学科,可从大规模数据集中提取知识,旨在帮助组织做出明智的决策和预测。数据科学家、数据分析师、数据架构师、数据工程师、统计信息员、数据库管理员和业务分析师的工作领域都属于数据科学范畴。

随着数据量呈指数增长且公司更加依赖分析来提高收入和推动创新,对数据科学的需求也在迅速增长。举例来说,随着商业互动变得更加数字化,将会产生更多数据,随之也会带来深入探索的新机会,可进一步了解如何提供更出色的个性化体验、提高服务和客户满意度、开发新的增强型产品以及提高销售额。此外,在商业领域以及其他领域,数据科学有可能帮助我们解决全球最艰巨的一些挑战。

数据科学家负责收集、分析和解释大数据,来发现模式和见解、进行预测并创建切实可行的计划。可将大数据分析 大数据 定义为种类、卷数和速度比使用先前数据管理方法所处理的更大的数据集。数据科学家使用多种类型的大数据,其中包括:

  • 结构化数据 ,通常以行和列为排列形式,包括姓名、日期和信用卡信息等字词和数字。例如,公共事业的数据科学家可能会分析发电量和使用量数据表格,帮助相关单位降低成本并检测可能导致设备故障的模式。
  • 非结构化数据 ,其中包括文档文件、社交媒体和移动数据、网站内容和视频中的文本。例如,零售行业的数据科学家可能会通过分析非结构化呼叫中心笔记、电子邮件、调查表和社交媒体帖子来回答有关改善客户体验的问题。
  • 此外,数据集的特征可描述为 定量 、结构化数字数据或 定性或分类数据 ,这些数据集不通过数值表示,可根据类别进行分组。数据科学家必须了解其正在使用的数据类型,因为这直接影响他们执行的分析类型,以及可用于可视化数据的图形类型。

    若要从所有这些数据类型中获取知识,数据科学家要在以下方面灵活运用自身技能:

  • 计算机编程 。数据科学家使用 Julia、R 或 Python 之类的语言编写查询,从所在公司的 数据库 中提取数据。Python 是许多数据科学家的首选语言,因为它易于学习和使用,甚至对没有编码经验的人也是如此,并且它还提供预生成的数据科学模块以进行数据分析。
  • 数学、统计学和概率 。数据科学家利用这些技能来分析数据、测试假设以及生成机器学习模型(数据科学家为了识别特定类型的模式而训练的文件)。数据科学家使用经过训练的机器学习模型来发现数据中的关系、对数据进行预测,并找出问题的解决方案。数据科学家还可利用自动化 机器学习 来访问生产就绪机器学习模型,而不必从头开始构建和训练模型。
  • 领域知识 。为了将数据转换为推动业务成果的相关且有意义的见解,数据科学家还需要掌握特定领域知识,也就是要了解他们所在的行业和公司。下面的示例介绍了数据科学家如何应用他们的领域知识来解决行业特定的问题。
  • 要回答“数据科学家的职责是什么?”这一问题,离不开另一项至关重要的技能,那就是将分析结果有效地传达给经理、主管和其他利益干系人,这也是数据科学家最重要的工作内容之一。数据科学家需要让非技术受众轻松理解其发现,以便他们可以使用见解做出明智的决策。因此,数据科学家需要具备以下技能:

  • 沟通、公开演讲和数据可视化 。出色的数据科学家拥有很强的语言沟通能力,包括讲故事和公开演讲。在数据科学领域,一张图片胜过千言万语。使用图形和图表演示数据科学结果,使受众能够在 5 秒或更短的时间内快速了解数据。因此,成功的数据科学家会像看重其分析一样看重其数据可视化。
  • 3. 获取数据

    数据科学家标识并获取取得理想结果所需的数据。这可能涉及查询数据库、从网站提取信息(Web 擦除)或从文件中获取数据。数据可能在内部可用,或者团队可能需要购买数据。在某些情况下,组织可能需要收集新数据才能成功运行某个项目。

    4. 清理数据,也称为清理

    通常,这一步最耗费时间。为了创建用于建模的数据集,数据科学家会将所有数据转换为相同的格式、整理数据、删除不需要的数据,并替换任何缺少的数据。

    5. 浏览数据

    清理数据后,数据科学家会对数据进行探索,并应用统计分析技术来揭示数据特征之间的关系,以及数据特征与预测值(称为标签)之间的统计关系。预测得到的标签可以是一个量值,例如未来某物的财物价值或航班延误时长(以分钟为单位)。

    探索和准备工作通常涉及到大量交互式数据分析和可视化 - 通常是在专门为此任务设计的交互式工具和环境中使用 Python 和 R 等语言。用于探索数据的脚本通常托管在 Jupyter Notebook 等专用环境中。借助这些工具,数据科学家能够以编程方式探索数据,同时记录和共享他们发现的见解。

    6. 建立数据模型

    数据科学家生成并训练规范性或描述性模型,然后测试和评估模型以确保模型能够回答问题或解决业务问题。最简单的情况下,模型是一段提取输入然后生成输出的代码。创建机器学习模型将涉及到选择算法、为其提供数据以及优化超参数。超参数是允许数据科学家控制模型训练过程的可调参数。例如,数据科学家可以决定神经网络每个层中隐藏层的数目和节点数。对模型进行超参数调优 超参数调优 (也称为超参数优化)是查找超参数的配置以获得最佳性能的过程。

    一个常见的问题是:“我应使用哪种机器学习算法?” 机器学习算法可将数据集转换为模型。数据科学家选择的算法主要取决于数据科学方案的两个不同方面:

  • 数据科学家通过学习过去的数据想要解决哪些业务问题?
  • 数据科学方案有哪些要求?(包括正确性、训练时间、线性、参数数目和特征数目)
  • 为了帮助解决这些问题,Azure 机器学习提供全面的算法组合,例如 多类决策林组件多类决策林 建议系统 神经网络回归 多类神经网络组件多类神经网络 K-Means 群集 。每种算法都旨在解决不同类型的机器学习问题。此外, Azure 机器学习算法速查表 可帮助数据科学家选择正确的算法来解答业务问题。

    7. 部署模型

    数据科学家负责交付包含文档的最终模型,并在测试后将新数据集部署到生产环境中,以便模型可以在业务中起作用。已部署模型提供的预测可用于制定业务决策。

    8. 可视化并传达结果

    数据科学家可使用可视化工具(例如 Microsoft Power BI 、Tableau、Apache wSuperset 和 Metabase)轻松地浏览数据并生成精美的可视化效果,让非技术受众更容易地理解他们的发现成果。

    在数据引入、发现、分析、可视化和协作的整个过程中,数据科学家还可使用基于 Web 的数据科学笔记本(例如 Zeppelin Notebooks)。

    数据科学方法

    数据科学家使用统计方法(如假设测试、因素分析、回归分析和聚类分析)来揭示在统计学上具有可靠依据的见解。

    数据科学文档

    虽然数据科学文档因项目和行业而异,但它通常包括文档,用于显示数据来源以及数据的修改方式。文档有助于数据团队的其他成员有效地使用数据继续推进项目进度。例如,文档可帮助业务分析人员使用可视化工具来解释数据集。

    数据科学文档的类型包括:

  • 项目计划 ,用于确定项目的业务目标、评估指标、资源、日程表和预算。
  • 数据科学用户案例 ,可为数据科学项目提供想法。数据科学家从利益干系人的角度撰写案例,描述利益干系人想要实现的目标,以及利益干系人请求项目的原因。
  • 数据科学模型文档 ,用于记录数据集、试验的设计和算法。
  • 支持系统文档 ,包括用户指南、用于进行系统维护的基础结构文档和代码文档。
  • 成为数据科学家有多种途径。要求通常包括信息技术或计算机科学学位。但是,一些 IT 专业人员通过参加集训营和在线课程学习数据科学,其他人则通过获得数据科学硕士学位或认证。

    若要了解如何成为数据科学家,请利用以下这些专为帮助你而设计的 Microsoft 培训资源:

  • 快速入门 。阅读免费的 Packt 电子书《 数据科学原则 - 统计技术和理论入门指南 》。你将学习统计分析和机器学习、关键术语和数据科学流程的基础知识。
  • 借助 Microsoft 云平台 Azure 培养机器学习技能 。探索 适用于数据科学家的 Azure 机器学习资源 ,包括免费培训视频、示例解决方案体系结构和客户案例。
  • 只需 4 周即可在 Azure 上免费获得机器学习专业知识 。每天花一个小时来了解如何为复杂问题创建创新解决方案。你将学习使用最新工具和框架缩放机器学习项目的所有基础知识。自定进度的 开始从零到精通的机器学习路径从零到精通的机器学习路径 还可帮助你为获得 Azure 数据科学家助理认证做好准备。
  • 获取全面的培训 。采用 Microsoft 数据科学家学习路径 并从自定进度和讲师引导式课程中进行选择。了解如何创建机器学习模型、使用可视工具、在云中运行数据科学工作负载,以及如何生成支持自然语言处理的应用程序。
  • 认证是展示数据科学资质并快速开始职业发展的好方法。Microsoft 认证的专业人员的需求量很大,目前有很多岗位都在招聘 Azure 数据科学家。了解最受雇主追捧的 数据科学家认证

  • Microsoft 认证:Azure 数据科学家助理 。运用数据科学和机器学习知识,以使用 Azure 机器学习服务在 Azure 上实现并运行机器学习工作负载。
  • Microsoft 认证:客户数据平台专业 。实施解决方案以了解客户概况并跟踪互动活动,帮助企业改善客户体验,提高客户保留率。
  • 数据科学家负责领导研究项目,旨在从大数据中提取有价值的信息和切实可行的见解。具体职责包括确定要解决的问题、编写查询以从数据库中提取正确数据、清理和排序数据、生成和训练机器学习模型,以及使用数据可视化技术将发现结果有效传达给利益干系人。

    了解数据科学家如何从数据中提取知识

    一些 IT 专业人员通过获得数据科学硕士学位/认证或参加集训营和在线课程来学习数据科学。认证是展示数据科学资质并快速开始职业发展的好方法。Microsoft 认证的专业人员的需求量很大,目前有很多岗位都在招聘 Azure 数据科学家。

    探索数据科学培训资源和认证

    数据分析师和数据科学家都使用大型数据集来发现数据中的趋势。但是,数据科学家在启动他们的研究项目时,通常拥有更多的技术专业知识和责任。例如,可能要求数据分析师完成统计数据分析,而可能要求数据科学家通过挖掘大数据来开发复杂业务需求的解决方案。

    请查看数据科学家与数据分析师在责任方面的比较