是什么让好葡萄酒?使用统计回归来模拟葡萄酒的味道

Bruno Scibilia.|2019年6月5日

主题:Anova.假设检验回归分析Minitab统18luck新利手机版计软件食品制造业数据分析18luck 下载 质量改进

如何描述葡萄酒的味道通常像一首诗一样读:“富含浓郁而富裕但不沉重的酒精,但既不是酸性的也不是鞣制,尽管它是美味的,但仍然具有大量的黑樱桃味......”鲜花和水果通常用作描述符,意味着帮助饮酒者了解一杯葡萄酒的口味。这诗歌反映了一些人认为果实转化为葡萄酒是一种艺术形式。

然而,味道都归结为影响葡萄酒味道的化学化合物。作为生活艺术的葡萄酒的爱情描述背后,有科学。统计回归可以提供帮助。

利用统计回归模拟葡萄酒口味

什么味葡萄酒?

当然,葡萄酒分享了水果和香料中发现的许多天然化合物,因此可以使用那些作为描述符的人理解。具体化学化合物将一致地通知我们的品尝经验,例如甜,酸或苦味。

然后有很好的葡萄酒,没有替代品:良好的葡萄优质,勤奋的葡萄酒制作和桶老化。每个酿酒阶段都会对味道产生不同的影响。

由于这些过程的这些阶段出现,由于葡萄酒中存在的不同化学品,因此发生了风味变化。葡萄酒中的所有口味来自葡萄和酿酒过程,当然但是操纵这些阶段会导致葡萄酒有更好的味道。

品尝葡萄酒可能听起来是空灵,但味道都归于化学化合物,影响你葡萄酒的味道。作为生活艺术的葡萄酒的爱情描述背后,有科学。酸主要添加酸笔记。醇化合物也会影响味道。乙醇增加了苦,甜蜜和酸味等......。如果人们希望能够使用某些化合物对味道的影响,他们必须了解哪个阶段自然会产生该化合物。

从糟糕的葡萄酒中识别好葡萄酒

不可避免的是,葡萄酒口味因人的人而异,葡萄酒典当者(De Gustibus Nonst Disputandum)有许多不同的曲线(De Gustibus nonest Disputandum:“在味道上,可能没有争议”),然而我们知道一些葡萄酒显然是显而易见的比其他人更好,大多数人可能会从一个坏人中识别出良好的葡萄酒。

当您需要了解这样的情况时,其中变异和噪声发挥重要部分,统计模型在识别出看似完全混乱的数据中的键输入时非常有效。

本文详细介绍了葡萄酒品质数据和强大的建模技术如何洞察对经验丰富的葡萄酒典当剂很重要的变量。

分析说明了甚至可以使用统计分析评估甚至味道偏好,如果选择正确的分析。

我们有兴趣使用统计数据来了解例如更多硫酸盐或更多氯化物的葡萄酒将味道更好。根据这种理解,可以制作更好的葡萄酒。我们将考虑许多潜在的预测因子,例如酸度,二氧化硫和酒精百分比。


本文已更新,以演示新版本的Minitab统计软件。18luck新利手机版想要为自己尝试minitab 19吗?下载30天免费试用


味道测试

酿酒师小组品尝了几种类型的白色和红色葡萄酒,并提供了质量良好(1)或差(0)的二进制评估。我们的目标是确定这些许多变量中的哪一个对葡萄酒质量产生重大影响。

使用回归分析二进制品味数据

由于本数据集中的复杂性和可变性,简单的图形不足以识别哪些变量可能是重要的。回归分析让我们了解多种因素如何影响结果,因此看看粉酒品种变量是一种理想的方法。

但是,我们的小组只是将每种葡萄酒作为高或低质量排名。这意味着我们有二进制而不是连续的响应数据,因此我们需要谨慎行事 - 使用标准回归或ANOVA分析二进制响应通常不是一个好主意。

因为二进制数据遵循二项式分布而不是正常的钟形分布,所以标准回归可能导致概率预测为负或大于100%。我们可能会得到一个不必要的复杂模型,其中一些虚假的相互作用似乎很重要。此外,二进制数据的方差不是恒定的。

幸运的是,有一个简单的解决方案,因为我们有二进制响应数据,我们只需使用适当的工具:二进制逻辑回归。

全模型回归分析

回归分析中的标准做法是以“完整模型”开始,其中包含您收集数据的所有潜在重要因素。在这种情况下,我们开始分析,包括所有变量和这些变量与葡萄酒类型之间的所有相互作用。

包括互动,在Minitab转到Stat>回归>二进制逻辑回归>适合二进制物流模型>型号>添加交互

在引入交互时,标准化模型中的连续预测器以避免,令人不安,缩放效果(Stat>回归>回归> Fit回归模型>编码

我们使用逐步方法自动构建最佳模型,并将术语的有用子集识别出大量候选术语。为此:Stat>回归>二进制物流回归>适合二进制物流模型>逐步

用于识别基于该逐步方法的最佳模型的标准是Akaike信息标准(AIC)。AIC估计由给定模型丢失的信息的相对数量,这种统计信息用于比较不同的模型。AIC越小,模型符合数据越好。AIC包括一个随着估计参数的数量而增加的罚款,以阻止过度装备。目标是避免过度装备,而且还磨损。

最终,这种迭代过程导致我们到下面的模型。

有助于品尝葡萄酒的因素

通过12个术语,这种模型似乎难以理解和解释,但它确实向我们提供了如何深入了解这些数据以更好地了解哪些因素对品尝美味的葡萄酒贡献哪些因素。

编码(标准化)系数可用于理解哪些变量最重要:

密度具有最大的效果(-3.504),然后含有葡萄酒的残留糖(2.75用于残留糖*葡萄酒相互作用)具有第二大效果,然后固定酸度(1.33)和固定酸度*密度相互作用(1.213)

上面的相互作用图表明,残留糖对葡萄酒质量的影响,在红葡萄酒中几乎不存在,但它在白葡萄酒中起着重要作用。

现在我们有葡萄酒的模型,我们可以看到数据告诉我们影响我们面板排名的葡萄酒特征。例如,这种主要效果图总结了固定酸度,密度和制作良好葡萄酒的概率之间的关系。更高的固定酸度和较低的密度趋于提高葡萄酒质量。

结论

因此,当您需要了解至少在表面上的情况下,违背数据分析或候选变量的数量很大,为什么不使用二进制逻辑回归等技术更深入挖掘?

您可以使用类似的方法来利用这种葡萄酒品尝数据来分析营销或销售数据,以更好地了解客户的偏好,并深入了解重要的因素 - 即使是味道偏好,它们似乎很难措施。

作为一个结论,我们已经能够鉴于Minitab 19的新功能,确定最佳模型 - 基于Akaike信息标准(AIC)的逐步方法。

下一个:

查看我们的免费网络研讨会学习“在Minitab 19中的新内容”

发现Minitab 19的强大新功能,为您提供更好的决策,更快的性能和更轻松的导航。点击下方查看网络研讨会并收到录制

注册Minitab 19网络研讨会+录制