(资料图片仅供参考)
大数据时代的到来,离不开很多契机,包括但不限于互联网的发展(这会导致数据吞吐量的急剧增长)、采集技术的发展(各种传感器、各个环节的数据埋点)、硬件发展(存储硬件、运算处理硬件)、数据应用场景扩展(数据挖掘分析技术的发展,使得越来越多的场景都可以通过数据获取价值)等因素,而随着大数据概念的深化,各行各业的数据量的积累,使得越来越多的人会接触到大数据,至少接触大数据这个概念,有的甚至是在使用大数据,在不知不觉中其实就与大数据接轨。
但是,在不借助大数据平台的情况下,我们往往很难直接使用传统的分析工具,比如用Excel等数据处理和分析工具来处理海量的数据,极易发生卡顿以及需要较长的响应时间,这是由于计算机本身的计算逻辑决定的,当单台计算机的数据吞吐量上去之后,会发现计算机好像停住了好久都没反应。当然,性能不同的电脑,所对应的这个处理能力上限是不相同的,但总言之,数据量的大是一种模糊的概念,并不是说一定多少数据才算大数据,而数据量的大使得我们常规的数据处理分析的工具和方法难以使用的情况,正是“大数据分析”和普通的“数据分析”之间的门槛,即实现技术。
有些人接触到了一些大数据的项目,觉得数据量确实大,但是还没达到传统工具处理不了的地步,也被称为大数据分析。所以只是大家对这里的“大”的界定不相同而已。
体量(Volume)。大数据由大量数据组成,从几个TB到几个ZB。百度资料表明,其新首页导航每天需要提供的数据超过1.5PB(1PB=1024TB),这些数据如果打印出来将超过5千亿张A4纸。有资料证实,到目前为止,人类生产的所有印刷材料的数据量仅为200PB。这些数据可能会分布在许多地方,通常是在接入因特网的计算网络中。一般来说,凡是满足大数据的几个V条件的数据都会因为太大而无法被单独的计算机处理。单单这一个问题就需要一种不同的数据处理思路,这也使得并行计算技术(例如MapReduce)得以迅速崛起。
多样(Variety)。在过去,数据或多或少是同构的,这种特点也使得它更易于管理。这种情况并不出现在大数据中,由于数据的来源各异,因此形式各异。这体现为各种不同的数据结构类型,半结构化以及完全非结构化的数据类型。在过去的几年里,半结构化数据和结构化数据成为了大数据的主体数据类型。数据类型繁多不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。
准确(Veracity)。只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报。准确是一个在讨论大数据时时常被忽略的一个属性,部分原因是这个属性相对来说比较新,尽管它与其他的属性同样重要。准确是一个与数据是否可靠相关的属性,也就是那些在数据科学流程中会被用于决策的数据(而这不同于与传统的数据分析流程),精确性与信噪比有关。
大数据分析及挖掘技术:数据分析及挖掘技术是大数据的核心技术。主要是在现有的数据上进行基于各种预测和分析的计算,从而起到预测的效果,满足一些高别数据分析的需求。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机实际数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。
数据展现和应用:大数据技术能够将隐藏于海量数据中的信息挖掘出来,从而是高各个领域的运行效率。在我国,大数据重点应用于以下三大领域:商业智能、政决策和公共服务。