5分钟快速入门大数据、数据挖掘、机器学习
本文简要介绍了大数据、数据挖掘和机器学习。对于任何想要理解什么是大数据、数据挖掘和机器学习以及它们之间的关系的人来说,这篇文章都应该很容易读懂。
数据挖掘和大数据能做什么?
简而言之,它们赋予我们预测的能力。
1、我们的生活已经被数字化
今天,我们每天做的许多事情都可以被记录下来。每笔信用卡交易都是数字化、可追溯的;我们的公众形象一直受到在城市各处悬挂的许多中央电视台的监视;对于企业来说,大部分的财务和运营数据都保存在一些ERP中;随着可穿戴设备的兴起,每一次心跳和呼吸都被数字化并保存为可用的数据。就在我们的生活被数字化的时候,一台电脑现在比以往任何时候都能更好地“理解”我们的世界。
2、如果模式保持不变,则过去=未来
我们生活中的许多不同事物都显示出模式。例如,一个人可能在任何工作日往返于工作和家庭之间,在任何非工作时间去度假或看电影,这种模式不太可能改变。商店会有一天的高峰时间和休闲时间,这种模式不太可能改变。企业将在一年中的某些月份要求更高的劳动力投入,这种模式不太可能改变。
总结第一点和第二点,我们可以得出这样的结论:如果提供过去的模式,计算机很有可能预测未来,因为这些模式在很长一段时间内很可能是一致的。
如果电脑能预测人们的生活方式,它就能准确地知道企业什么时候是进行促销的最佳时机,比如,如果这个人倾向于每周五洗车,那么企业可以给他推送一次洗车促销;如果这个人倾向于每年3月去度假,那么企业就会给他推送一张酒店住宿优惠券。在商业上,电脑还可以预测商店全天的销售预测,然后制定商业策略,使营收最大化。对于企业来说,计算机也可以设计出最佳的工作计划,以及最合理的劳动力安排。
一旦未来变得可预测,我们总是可以提前计划,并为最好的行动做好准备。就像《黑客帝国》中的Neo一样,他可以躲避所有的子弹,因为他可以清楚地看到子弹从哪里来。根据夏洛克·福尔摩斯的说法,“对概率数学的高级掌握,映射到对人类心理的透彻理解,以及任何已知个体的已知性情,都可以大大减少变量的数量”,换句话说,“大数据赋予我们预测未来的能力”。这就是数据挖掘的力量。数据挖掘始终与大数据联系在一起,仅仅是因为大数据支持大规模数据集,从而为所有预测提供了基础。
那么,什么是大数据、数据挖掘和机器学习呢?
1、大数据
当数据量非常大时,很明显,这些数据不能在任何一台机器上处理。一个非常大的文件,比如说10GB,你很有可能无法在任何Windows系统中打开它,直到它崩溃。大数据就是为此而开发的。您可以将它看作是一个特殊的软件,它将一个大文件分割成小得多的文件,然后可以在许多机器上处理这些文件。划分和梳理数据块的过程称为MapReduce。这个过程中最常用的软件框架叫做Hadoop。Hadoop解决了这个基本问题,并且有一堆工具可以和Hadoop一起使用,比如Pig、Zookeeper和Hive,让这个过程更加容易。Hadoop及其许多相关工具通常被称为“大数据技术”。
2、机器学习
刚才我们接触了如何处理数据。假设这段数据包含一组购物者的购买行为,包括购买的商品总数、每个购物者购买的商品数量。到目前为止,这只是一个简单的统计分析。然而,如果我们的目标是分析不同类型购物者之间的相关性,或者如果我们想推断特定类型购物者的特定偏好,甚至预测任何购物者的性别或年龄,我们需要一个更复杂的模型,我们称之为算法。机器学习可以更容易理解为为数据挖掘目的而开发的各种不同的算法,如逻辑回归、决策树、协作过滤等等。
3、数据挖掘
通过机器学习算法的应用,现有的数据实际上可以用来预测未知,这正是为什么数据挖掘的奇迹与机器学习紧密相连的原因。然而,任何机器学习算法的强度都严重依赖于大量数据集的供应。请记住,无论算法有多复杂,都无法通过几行数据做出鼓舞人心的预测。大数据技术是机器学习的前提,利用机器学习,我们可以从现有的数据集中获得有价值的见解,这就是数据挖掘。
服务提示