机器学习与R语言原书第2版.pdf
http://www.100md.com
2020年11月18日
![]() |
| 第1页 |
![]() |
| 第7页 |
![]() |
| 第16页 |
![]() |
| 第27页 |
![]() |
| 第34页 |
参见附件(8749KB,43页)。
机器学习与R语言(原书第2版)介绍了多种重要的机器学习算法。在给出相应的机器学习算法的核心理论之后,都给出了一个实际的案例,从对案例数据的探索、整理,到模型的建立和模型的评估,每一步都给出了详尽的步骤和R代码。

本书结构
第1章介绍了用来定义和区分机器学习算法的术语和概念,并给出了将学习任务与适当算法相匹配的方法。
第2章提供了一个在R中自己实际动手操作数据的机会,并讨论了基本的数据结构以及用于载入、探索和理解数据的程序。
第3章教你如何将一个简单且功能强大的学习算法应用于你的第一个学习任务:识别癌症的恶性样本。
第4章揭示了用于先进的垃圾邮件过滤系统的概率的基本概念,并且在建立你自己的垃圾邮件过滤器的过程中,你将学习文本挖掘的基本知识。
第5章探索两种学习算法,它们的预测不仅精确而且容易解释。我们将把这两种算法应用于对透明度要求很高的任务中。
第6章介绍了用于数值预测的机器学习算法。由于这些技术在很大程度上来源于统计领域,所以你还将通过学习必要的基本指标来理解数值之间的关系。
第7章包括两个极其复杂但功能强大的机器学习算法。尽管数学可能会让人望而生畏,但是我们将以简单的术语,结合实际例子来说明它们内部的运作原理。
第8章揭示了许多零售商使用的推荐系统的算法。如果你想知道零售商是如何比你自己更了解你的购物习惯的,本章将揭示他们的秘密。
第9章介绍k均值聚类。该算法用来查找相关个体的聚类。我们将使用该算法来确定一个网络社区内的分布。
第10章提供了度量机器学习项目是否成功的信息,并提供了机器学习算法在未来数据上性能的可靠估计。
第11章揭示了在机器学习竞赛中排名最靠前的团队所采用的方法。如果你具有竞争意识,或者仅仅想获取数据中尽可能多的信息,那么需要学习这些技术。
第12章探讨了机器学习的前沿主题。从使用大数据到使R的运行速度更快,涉及的这些主题将帮助你拓展使用R进行数据挖掘的界限。
将机器学习应用于数据中的步骤
任何机器学习任务都能分解成一系列更容易管理的步骤。本书组织的步骤如下:
1)收集数据:无论数据是写在纸上,记录在文本文件、电子表格中或者存储在SQL数据库中,你都要把它转为适合分析的电子格式。数据将作为机器学习算法的学习材料,从而产生可行动的知识。
2)探索数据和准备数据:任何机器学习项目的质量很大程度上取决于它使用的数据的质量。机器学习过程的这个步骤一般需要大量的人工干预。一项常被引用的统计数据指出,机器学习中80%的努力花费在数据上。这其中的大多数时间都花费在一项称为数据探索的实践中,它要学习更多的数据信息和它们的细微差别。
3)基于数据训练模型:在已经准备好用于分析的数据时,你很有可能已经有了希望从数据中学习到什么的设想。具体的机器学习任务将会告知你选择合适的算法,算法将会以模型的形式来表现数据。
4)评价模型的性能:由于每个机器模型将会产生一个学习问题的有偏差的解决方法所以评价算法从经验中学习的优劣是很重要的。根据使用模型的类型,你应该能用一个测试数据集来评价模型的精确性,或者你可能需要针对目标应用设计模型性能的检验标准。
5)改进模型的性能:如果需要更好的性能,就需要利用更加高级的方法来提高模型的性能。有时候,需要完全更换为不同的模型。你可能需要补充另外的数据,或者如这个过程的第二个步骤中所做的那样,进行一些额外的数据准备工作。
在完成这些步骤以后,如果模型表现令人满意,就能将它应用到预期的任务中。根据具体的情况,为了预测(也可能是实时预测)的目的,你可能需要模型给出预测分数。例如预测财务数据、对市场或者研究给出有用的见解,或者使诸如邮件投递或者飞机飞行之类的任务实现自动化。部署的模型无论成功或者失败,它们都可能为训练下一代的模型提供进一步的数据。
R数据结构
在程序语言中有很多种形式的数据结构,在应用到特定的任务时,它们各有优势和劣势。因为R是一个在统计数据分析中广泛运用的程序语言,所以R所用的数据结构的设计目的是使它易于处理这类任务的数据。在机器学习中经常使用的R数据结构是:向量、因子、列表、数组和数据框。每一种数据类型都针对一类具体的数据管理任务,所以知道它们是如何与R项目相互交互是至关重要的。
机器学习与R语言原书第2版截图



您现在查看是摘要介绍页, 详见PDF附件(8749KB,43页)。




