四、主要研究内容和要求达到的深度:
本文研究的方向是数据仓库,并且是聚焦于大数据这一特定环境下的数据仓库建设,其主要内容包括以下几点:
1。 非结构数据库的数据仓库解决方案:本文聚焦于大数据这一特定环境下的数据仓库建设,因为大数据环境下的数据仓库建设理论文献很少,首先需要以研究关系数据库型数据仓库的解决方案为参考,然后对比关系数据库和非结构数据库的特点,最后在参考方案的基础上改进,以得到适合非结构数据库环境的数据仓库解决方案。
2。 非结构数据库和关系数据库间数据转换:非结构数据库是对关系数据库的补充,很多非结构数据库应用环境中都有关系数据库的身影。因此,非结构数据库和关系数据库间数据转换是建立非结构数据库需要解决的一个关键问题。
3。 基于非结构数据库的数据仓库构建:本文拟采用手礼网的数据,分析其具体的数据环境和需求,为其构建基于非结构数据库的数据仓库,主要包括非结构数据库的数据抽取,Hive数据库入库操作和Pentaho前台数据展现等。
五、研究工作的主要阶段、进度和完成时间:
结合研究需要和学校教务管理的安排,研究工作主要分以下四阶段完成:
第一阶段:论文提纲:20xx年6月——7月
第二阶段:论文初稿 :20xx年8月——10月
第三阶段:论文修改:20xx年11月——20xx年3月
第四阶段:最终定稿:20xx年4月
六、拟采用的研究方法、手段等及采取的措施:
在论文提纲阶段,本文拟采用调查统计的方法,收集目前大数据环境下数据库应用情况,着重统计各类型数据库的应用比例。同时采用文献分析和个案研究的方法研究数据仓库构建的一般过程和对应的技术细节,并提出解决方案。在论文初稿和修改阶段,本文拟通过实证研究,依据提纲阶段在文献分析中收集到的理论,基于特定的实践环境,理论结合实践,实现某一具体数据仓库的构建。最后采用定性和定量相结合的方法,详细介绍大数据环境下数据库和数据仓库的特点,其数据仓库实现的关键问题及解决方案,以及数据仓库个例实现的详细过程。
七、可能遇见的困难、问题及拟采取的解决办法、措施:
基于本文的研究内容和特点分析,本文在研究过程中最有可能遇到三个关键问题。
其一,非结构数据库种类繁多,每类数据库又对应有不同的数据库产品,由于当下非结构数据库没有统一标准,即便同类数据库下不同产品的操作都不尽相同,难以为所有非结构数据库提出解决方案。针对此问题,本文拟紧贴大数据这一背景,选择当下大数据环境中应用最多的几类数据库的代表性产品进行实现。
其二,虽然经过二十年的发展,数据仓库的理论已日趋完善,但大数据是近几年才发展起来的技术热点,大树据环境下的数据仓库建设理论文献很少。针对此问题,本文拟参考现有的成熟的关系数据库环境下数据仓库构建方案和非结构化数据仓库理论,研究适合非结构数据库的数据仓库构建方案,请导师就方案进行指导,然后再研究具体技术细节实现方案。
其三,基于大数据环境的数据仓库实现是本文重要的组成部分,要完成此部分的工作需要企业提供数据支持,但现在数据在企业当中的保密级别都很高,一般企业都不会将自己的业务数据外传。针对此问题,本文拟采用企业非核心业务数据进行数据仓库实现。
八、大纲
本文的基本构想和思路,文章拟分为导论、大数据环境下的数据库介绍、大数据下数据仓库关键问题研究、基于电子商务的大数据下数据仓库实现、结论五部分。
导论
一、研究背景
二、国内外研究现状述评
三、本文的主要内容与研究思路
第一章 大数据环境下的数据库介绍
第一节 大数据对数据库的要求
第二节 关系数据库和非结构数据库比较
第三节 大数据下常用非结构数据库介绍
小结
第二章 大数据下数据仓库关键问题研究
第一节 非结构数据模型和关系数据模型的转换
第二节 基于多源非结构数据库的数据抽取
第三节 数据类型转换