以前我们讲数据挖掘,大数据时代讲大数据挖掘。那么大数据挖掘的“大”在哪里呢?本文做一些归纳,希望能提供一些思考问题的方法。
不足之处欢迎留言发表意见。
一、数据量的大
数据量有多大?这是很多人在挖掘大数据时不得不问的问题。
从一些实际应用来看,如果每天处理的数据量达到T、P级别,可以考虑部署Hadoop、Spark等大数据处理平台。只有一定程度的数据处理才能凸显这些平台的优势。
数据量小,读取和迁移数据所花费的时间占太多,不能体现大数据处理平台的优势。很多应用只是为了大数据大数据,几百M也搞定Hadoop。因此,谈大数据时想到Hadoop、Spark等平台是非常有限的。
当然,在决定是否使用大数据平台时,可能需要考虑更多的因素,例如:许多低性能机器的集成、异构软硬件平台之间的可移植性、海量非结构化数据处理等。
二、数据类型的多样化
在数据挖掘时代,我们挖掘的数据主要是关系数据。大数据时代,各种应用产生各种数据,大数据挖掘通常涉及多种数据类型。这里所说的数据类型不是编程中的普通数据类型,而是更接近于应用数据表示,通常包括时序数据、轨迹数据、图形数据、文本数据等。
每天的销售记录和价格都是常见的数据类型,但它们从时间维度上是按顺序连接起来的,形成的时间序列数据可以反映价格的变化规律,当然具有更丰富的含义。
每个人的位置只是一个普通的数据类型(x,y),但是按照运动的先后顺序将位置连接起来就构成了一个人的活动轨迹,反映了他背后的生活和习惯。隐藏的信息才是大数据应该关注的。
微博或论坛中的每个人都是独立存在的,也是公共数据,但是如果把每个人按照粉丝、粉丝等关系连接起来,就可以形成一个大图,即图数据。图中的人群和离群点,以及加入群体偏好、群体移动等属性后的高层次图数据,是大数据挖掘的重点。
三、数据处理的噪音
在数据挖掘时代,数据来源于关系型数据库,是与业务相关的高质量数据,通常可以直接挖掘。这绝对不是大数据挖掘的情况。大数据思维决定了我们必须考虑不同来源数据的质量和混合数据结构,以增强数据处理的健壮性。例如,要进行企业级的客户分析,不同的分支机构可能会使用不同的客户管理系统。有的系统用本科/硕士/博士来区分客户的教育背景,有的则用本科/研究生来区分。这就需要考虑数据的一致性处理。此外,数据格式、数据完整性等都是大数据挖掘需要考虑的东西。
四、数据挖掘的多样化
在数据挖掘时代,一般侧重于单一的数据分析,而大数据挖掘可能更侧重于业务中同时存在的多个数据挖掘任务,如分类、预测、关联、聚类等。虽然有更多的业务需求,但是这些分类、预测、关联、聚类在底层可能会使用同一个模型。因此,在挖掘大数据时,考虑模型、算法和业务的分离是非常重要的,即所谓的大数据处理层次。
我们专注高端建站,小程序开发、软件系统定制开发、BUG修复、物联网开发、各类API接口对接开发等。十余年开发经验,每一个项目承诺做到满意为止,多一次对比,一定让您多一份收获!