大约十年前,当数据科学的热潮开始时,创建一个预测模型是一项复杂的工作,只有熟练的程序员才能完成。今天,新工具和新技术正在将重点从编程细节转移到构建健壮、可伸缩并专注于创建业务价值的模型。
在这篇文章中,我们将提供一个机器学习如何工作的框架,并展示我们现在如何进入第三代机器学习能力,你可以利用它。
机器学习和预测的艺术和科学
什么是机器学习?就其核心而言,机器学习只不过是一组算法的集合,它可以让你根据已知的数据对未知的事情做出预测。在他们的书中预测机器,经济学家阿贾伊·阿格拉瓦尔(Ajay Agrawal)、约书亚·甘斯(Joshua Gans)和阿维·戈德法布(Avi Goldfarb)认为,人工智能不是关于创造智能,而是关于机器做出预测的能力,这是做出决策的核心输入。
正如两位作者所指出的,在预测方面,机器和人类各有优缺点。机器能够更好地处理复杂的交互,尤其是在数据丰富的情况下,而人类在理解产生数据的过程很重要的时候会做得更好。
我和其他许多人都坚信,最好的结果是将机器和人的力量结合起来的结果。这是我和我的同事采用的方法艾姆赫斯特学院的数据科学硕士这个项目,我是创始董事。
今天的机器学习方法源于统计学。线性回归已经存在了一个多世纪,仍然是机器学习的一种重要形式。在过去的几十年里,新的机器学习形式变得实用起来。我将现代机器学习方法分为三代。
第一代:从逻辑回归到决策树和Minitab CART
第一代由一组基线建模技术组成,这些技术通常足以做出有用的预测。它们有几种类型,首先是决策树。
假设您正在尝试预测一个潜在客户是否会根据过去的购买历史进行购买。许多高度相互交织的因素在起作用。典型的BI分析根本无法看穿复杂性。决策树在每个步骤中系统地确定哪些可用变量可以最快速地将购买对象与不购买对象区分开来。
结果是一个路线图,您可以遵循它来指导决策。在下面显示的银行业务示例中,使用一款统计软件最重要的变量是与前景者最后一次接触的持续时间。如果隐形眼镜持续时间少于249秒,购买的可能性很小,但时间越长,购买的可能性就越大。从那里,跟着树走。
另一个重要的第一代机器学习模型是逻辑回归,它开发了输入变量加权组合的预测结果公式。这种方法很容易在许多IT环境中实现,也很容易理解。
第一代模型通常都是你需要的,但它们也有局限性。有时,它们会忽略数据中重要的细微差别,这可能导致模型不够敏感或过于敏感,将数据中的随机性误认为真实的模式。第二代模型解决了其中的一些问题,有时还提供了额外的有用信息。
第二代算法包括随机森林算法,它进一步构建了许多树
随机森林算法是第二代模型的一个很好的例子。与使用简单的决策树不同,随机森林在每次传递中只使用部分数据构建许多树。他们基本上是通过平均得出最终答案的。这个过程的结果是消除系统中的一些噪声,可以比一个简单的决策树更鲁棒。
随机森林还可以免费提供对变量重要性的良好估计。随机森林算法,以及其他一些更复杂的机器学习和预测分析工具,可以在Minitab等软件中生成索尔福德预测模型(SPM)。在我们的银行示例中,最后一次联系的时间、就业状况和月收入上升到顶部,如下所示。注意,这个结果与我们的购物车树是一致的,并且更进一步,如下面的截图所示SPM随机森林®:
其他第二代模型包括多元自适应回归样条和正则化回归模型,其目的是保持模型复杂性问题在控制之下。
第三代机器学习和产生有用的商业指导
任何机器学习工作的首要目标都是产生有用的商业指导。第三代机器学习模型既扩展了早期机器学习模型的范围,又提供了新的指导水平。
让我们最后看一下银行的例子。
- 我们的随机森林模型告诉我们,客户联系的持续时间很重要。
- 我们的购物车树告诉我们,如果接触少于249秒,购买的可能性就很低。
下图称为单变量偏相关图。它展示了接触时间对购买可能性的影响如何在接触时间长短的各种可能值之间发生变化。这听起来是一个简单的想法,但实际上很难做到,因为持续时间等变量的影响与许多其他变量的影响紧密交织在一起。
我们的部分依赖图告诉我们,完成交易的前景持续增长,直到大约1000秒,然后保持稳定。这是您可以提供给一线人员的特定指导,它超越了早期的一代模型所提供的。
第三代模型的另一个重点领域是处理文本和图像数据的能力。一旦转换为数字,这类数据的列往往比行多很多。对于早期的建模技术来说,这通常是一个噩梦。第三代模型,比如GPS和火星®具备必要的能力。所谓的非结构化数据(如文本和图像)正变得越来越重要,有时它们承载着模型的大量预测能力,因此具有产生业务价值的it能力。
总结:这个故事还有更多内容!
模型必须是稳定的。模型必须可部署。今天的机器学习工具使这两种必要的结果成为可能。从商业的角度来看,这些挑战将使人们意识到现在什么是可能的,并使人们有能力明智地使用第一代、第二代和第三代机器学习模型的强大结果。