- Python预测分析与机器学习
- 王沁晨编著
- 1284字
- 2025-02-17 19:12:09
1.1 人工智能、机器学习与数据分析的关系
人工智能(Artificial Intelligence)也就是我们常提到的AI,是一系列致力于使计算机模拟出人类“智慧行为”的研究。由于“智慧行为”这个概念难以被完全定义,人工智能的定义也相对广泛。视觉识别、声音辨认、翻译、决策等任务皆包含在人工智能的研究方向内。一些需要人类脑力的竞技,如围棋或国际象棋,也可以在计算机中通过不同类型、复杂程度和运算量的算法执行。
举个例子,2016年3月,谷歌围棋机器人阿尔法狗(AlphaGo)击败世界围棋冠军、职业九段棋手李世石。阿尔法狗集合深度神经网络、蒙特卡洛决策树和强化学习等多种算法,运用谷歌云进行巨量计算,搜索最优落子点。同时,简单的广度优先搜索(BFS)和深度优先搜索(DFS)也属于人工智能的搜索算法。两者的区别在于搜索效率和最优化的取舍。
为了让机器更好地完成需要人类智慧的任务,学者们开始研究人类智慧的重要组成部件——学习能力,而这一研究方向便被称为机器学习。机器学习这一领域是包含在人工智能中的,是实现人工智能的一类以“学习”为重心的算法,如图1.1所示。
自观人类的学习模式,在解决一个新的任务时,我们常通过本身拥有的类似经验或研究同类型人物的解决方式而产生对新事物的思路。例如学习削苹果,你可能先是看拥有这项技能的人完成这个动作,然后你的大脑会从观察中提取经验,并根据这些信息指导你的手对一个新的苹果操作;或是你本身拥有削梨的技能,而这个苹果经过严密的观察分析长了一个类似梨的皮,于是你决定把削梨的经验移用到苹果上操作。机器的学习也是同样的道理。为了让机器“学习”,我们通常提供一个训练数据集,这将作为它得以参考的“过往经验”。算法核心的数学模型将扮演人类大脑的角色,提取数据中的有效信息,而后对未见过的类似数据执行相似的任务。
由此可见,数据和机器学习有着不可分离的关联。机器学习模型可以对未知的数据进行预测或分析,而大量有效的数据能让机器学习模型更准确地预测未知数据,如图1.2所示。

图1.1 机器学习是实现人工智能的一种算法

图1.2 数据与机器学习之间相辅相成
因此,数据分析可被看作两个大的模块:人工分析以提取“有效”数据供机器学习;机器根据提供的数据进行分析。注意,这两者并不是重复性的工作,也不意味机器学习是程序员的硬编码。人工分析和机器分析的任务全然不同。面对一个预测问题时,数据分析师会先与领域内的专家充分交流,了解哪些数据可能对这一预测结果起决定性作用,并对这些数据进行筛选,后提供给模型学习。而模型的分析则是根据筛选数据对未来数据进行预测。举个例子,我们想要预测一个产品的销量,而零售企业的数据库中存储着大量数据,但多数对于预测销量并无决定性作用。这时则需要数据分析师根据与领域专家,例如管理库存的团队交流,再加上关联测试来决定哪些数据是最有效益的。由于这些有效数据之间的关系错综复杂,人工的方法无法直接分析出某个条件下的销量,因此经过学习的机器便承担了这一步的预测分析。两者可算是分工合作,来达到智能预测的目的。
刚刚这个例子也引出了本书的主人公——预测分析。在接下来的部分,我们先跳出人工智能和机器学习,介绍预测分析在商业中扮演着什么样的角色。