1.2 什么是预测分析

随着计算力的发展,数据分析也被大规模运用到商业中。许多企业制订以数据为中心的商业计划,希望通过数据分析提高产品质量、用户体验和运作效率。企业的数据中心化程度可分为3个层次:描述性分析(descriptive analytics)、预测性分析(predictive analytics),以及处方性分析(prescriptive analytics)。3个层次的数据分析在企业中施展难度不同,随之带来的客观价值也不同,如图1.3所示。

描述性分析着重于描述过往数据。它常以文字汇报和统计图表的形式出现,帮助决策者更加直观地了解过往数据中隐藏的信息。描述性分析往往不需要AI的辅助,可以通过数据汇总和简单的Python代码完成。举个假想的例子,一个零售企业的数据分析师可以整合每周各类物品本周售量,在周末时自动合成趋势统计图。周一早晨领导看到这一数据整合汇报时,可能会发现某类产品比过往多年的平均售量大幅提高或降低。例如方便面的售量,本应在开学季大幅提高,却因近年来越来越多的大学生注重养生而没有呈现往年同样的趋势。相反,开学一个月后生发产品的销量稳步上升。这都会被描述性分析图表直观地展现出来,而负责分配库存的领导可以根据这一信息做出更有效的库存安排。

图1.3 3个层次的商业分析

由此可见,描述性分析可以直观、有效地总结近期历史。在这个基础上结合决策者的人为判断,便可对未来做出更准确的展望。

通过这个例子我们也可以看出描述性分析的缺陷。第一,它只能对决策制订起到有限的辅助效益,决策者可以更直观地看到过往数据趋势,但需要根据自己的判断理解这一趋势及趋势对未来的影响;第二,很多时候,描述性分析发现的趋势对计划未来并无太大的作用。例如在假想的例子中,周一早晨领导发现上周方便面售量较往年大幅下降,而为上周准备的库存早已发配到各地仓库;生发产品的销量大幅提高,但由于上周库存不足已经错过了一波商机,给我们的只是“后见之明”。

正是因为把控时间在商业决策中至关重要,企业大多追求运用已有的数据对未来事件做出预测。这也就是预测性分析的侧重点:预判未来可能发生的事,从而给企业更充足的准备时间。一定程度上,它可以给决策者提供对未来事件的洞悉力。

你也许会提出这样的疑问:通过描述性分析汇报,决策者是不是也可以对更远的未来做出预测?

答案是确实如此。从某种程度上讲,预测性分析与描述性分析本质相同。唯一的区别在于,对未来进行预测的是人工决策者,还是通过学习过往数据建立的机器模型。在假想的例子中,让我们把时间调回到一个月前。同样,描述性分析报表整合了上一周各类产品的销量和周边数据(如往年销量、同类型产品销量、替代类产品销量等),直观地展示给决策者。如果这时候决策者可以通过观察一系列不同数据的报表找出这些数据中的关联,然后判断出一个月后方便面销量会较往年下滑,那么在这个问题中确实不需要机器学习和预测分析,只需这样一个天才决策者。然而现实是,周边数据的关系往往错综复杂,甚至无法用常规的函数或逻辑表达,因此才研究出了各种可以运用这些关系做出预测的机器学习模型。

从这个例子中,我们也大概了解了预测分析的过程。首先,需要提出一个机器可以回答是与否,或一个具体数字的问题。例如,一个月后方便面的销量会是多少?然后,需要收集我们认为起决定性作用的数据。这个阶段我们需要收集尽可能多种类的数据,包括一些人为预测无法运用的数据,例如连续几周的库存量与去年同时间段的库存量变换。拥有初步数据后就可以建立基础模型,通过统计分析及模型效益判断数据是否充足,是否需要进一步优化。在这一步中我们可以测试不同类型的模型、参数及数据之间的配合,以此将整个预测分析流程打包优化。

在预测性分析之上,还有一层处方性分析。处方性分析在预测性分析的结果上提供行动建议。处方性分析是对一系列决定可能导致的结果的预测。在某种程度上,处方性分析也属于一种预测,只是定义问题的方式不同。例如,如果我们增加下个月方便面的库存,对收益和搁置量的影响如何。处方性分析意图在于提供先见之明,进一步辅助决策者采取收益更大的行动。

处方性分析的核心同样是大量的数据和机器学习,只是其算法的输入及输出会根据问题定义的不同而大不相同,因此,本书将重点放在预测性分析上,通过相对更加具体、中心思想可转移性更高的预测案例教读者如何着手机器学习,用数据创造价值。