相较于大型企业,中小企业的大数据发展战略不同。大公司可以凭借雄厚的资本和技术实力,从自身环境和业务出发,开发自己的软件平台。而中小企业没有那样的技术实力,也没有那么庞大的资金投入,更倾向于选择一个普遍的、相对廉价的解决方案。本文旨在分析大数据环境下数据库的特点,结合当下流行的Hadoop框架,提出了一种适用于大数据环境的数据仓库的解决方案并实现。为中小企业在大数据环境中构建数据仓库提供参考。其具体说来,主要有以下三方面意义:
首先,目前主流的数据库如Oracle、SQL Server都有对应自己数据库平台的一整套的数据仓库解决方案,对于其他的关系型数据库如MySQL等,虽然没有对应数据库平台的数据仓库解决方案,但有很多整合的数据仓库解决方案。而对于非结构化的数据库,因其数据模型不同于关系型数据库,需要新的解决方案,本文提出的基于Hive/Pentaho的数据仓库实现方案可以为其提供一个参考。
其次,通过整合多源非结构化数据库,生成一个面向主题、集成的数据仓库,可为大数据平台上的联机事务处理、决策支持等提供数据环境,从而有效利用数据资源辅助管理决策。
再次,大数据是一个广泛的概念,包括大数据存储、大数据计算、大数据分析等各个层次的技术细节,本文提出的“大数据环境下的数据仓库解决方案及实现“丰富了大数据应用技术的生态环境,为大数据环境下的数据分析、数据挖掘等提供支撑。
三、国内外研究现状和发展趋势的简要说明:
本文研究的主体是数据仓库,区别于传统基于关系型数据库的数据仓库,本文聚焦大数据环境下基于非结构数据库的数据仓库的构建与实现。因此,有必要从数据仓库和大数据环境下的数据库两方面进行阐述。
(一) 数据仓库国内外研究现状
自从Bill Inmon 在1990年提出“数据仓库”这一概念之后,数据仓库技术开始兴起,并给社会带来新的契机,逐渐成为一大技术热点。目前,美国30%到40%的公司已经或正在建造数据仓库。现如今随着数据模型理论的完善,数据库技术、应用开发及挖掘技术的不断进步,数据仓库技术不断发展,并在实际应用中发挥了巨大的作用。以数据仓库为基础,以联机分析处理和数据挖掘工具为手段的决策支持系统日渐成熟。与此同时,使用数据仓库所产生的巨大效益又刺激了对数据仓库技术的需求,数据仓库市场正以迅猛的势头向前发展。
我国企业信息化起步相对较晚,数据仓库技术在国内的发展还处于积累经验阶段。虽然近年来,我国大中型企业逐步认识到利用数据仓库技术的重要性,并已开始建立自己的数据仓库系统,如中国移动、中国电信、中国联通、上海证券交易所和中国石油等。但从整体上来看,我国数据仓库市场还需要进一步培育,数据仓库技术同国外还有很大差距。为此,我国许多科技工作者已开始对数据仓库相关技术进行深入研究,通过对国外技术的吸收和借鉴,在此基础上提出适合国内需求的技术方案。
(二) 非结化数据库国内外研究现状
随着数据库技术深入应用到各个领域,结构化数据库逐渐显露出一些弊端。如在生物、地理、气候等领域,研究面对的数据结构并不是传统上的关系数据结构。如果使用关系数据库对其进行存储、展示,就必须将其从本身的数据结构强行转换为关系数据结构。采用此种方式处理非结构数据,不能在整个生命周期内对非关系数据进行管理,并且数据间的关系也无法完整的表示出来。在此背景下,非结构化数据库应运而生。相较于关系数据库,非结构数据库的字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成。如此,它不仅可以处理结构化数据,更能处理文本、图象、声音、影视、超媒体等非结构化数据。近年来,随着大数据兴起,非结构数据库开始广泛应用,以支持大数据处理的多种结构数据。
目前,非结构化的数据库种类繁多,按其存储数据类型分,主要包含内存数据库、列存储型、文档数据库、图数据库等。其中,常见的内存数据库有SQLite,Redis,Altibase等;列存储数据库有Hbase,Bigtable等;文档数据库有MangoDB,CouchDB,RavenDB等;图数据库有Neo4j等。近年来,我国非结构数据库也有一定发展,其中最具代表的是国信贝斯的iBASE数据库。可以预见在不久的将来,伴随这大数据的应用,非结构数据库将会得到长足的发展和广泛的应用。