大数据下的数据仓库构建与多维分析实现

 2022-05-20 22:03:55

论文总字数:26896字

摘 要

本文利用SQL Server Analysis Services与Apache Hive对纽约市停车罚单数据集进行分析,包括处理数据集、导入数据、进行数据分析、可视化界面展示等内容。基于数据集内容对纽约市违法停车最多的地点、因何种情况被开罚单等内容进行了查询分析。然后使用Apache Kylin对商品销售数据集进行分析,并通过导入数据集、构建Model、构建Cube、连接可视化界面等步骤完成利用Kylin进行多维数据分析的过程。理解Kylin的核心思想预处理技术。利用Kylin分析哪一时间段销售货物最多,销售总额最多的卖家等内容。通过可视化界面对上述软件所分析的数据进行整理。

最后,分析三种不同的数据分析工具之间存在的差异并对他们的数据分析效率进行对比。通过实验观察,在数据集较小的情况下,SSAS构建多维立方体的速度优于Kylin。整体查询效率并无太大差别。因此,当数据量较小时,用SSAS更为合适。Hive与Kylin通常面向大量数据,当数据量较为庞大的时候分析效率更快。

关键词:大数据,多维分析,Apache Kylin,数据仓库

Abstract

This article uses SQL Server Analysis Services and Apache Hive to analyze the New York parking ticket dataset, including processing datasets, importing data, data analysis, visual interface presentation, etc. Based on the contents of the dataset, this paper makes a query analysis on the location of New York illegal parking, the situation of which tickets are issued. Then use Apache Kylin to analyze the commodity sales dataset and complete the process of using Kylin for multidimensional data analysis by importing datasets, building Model, building Cube, connecting visual interface, and so on. Understand Kylin's core thought preprocessing technology. Using Kylin to analyze which time period sold the most goods, the most total sales of sellers and other questions. The data analyzed by the above software is collated by using the visualization interface.

Finally, analyze the differences between the three different data analysis tools and compare their data analysis efficiency. Through experimental observations, SSAS builds multidimensional cubes faster than Kylin when the data set is small. The overall query efficiency is not much different. When the amount of data is small, it is more appropriate to use SSAS. Hive and Kylin usually target a large amount of data, and the analysis is faster when the amount of data is large.

KEY WORDS:Big Data, Multidimensional analysis, Apache Kylin, Data warehouse

目 录

摘要 Ⅰ

Abstract Ⅱ

第一章 绪论 1

1.1选题背景与意义 1

1.2国内外研究概况 1

1.3本文主要研究内容 2

1.4论文组织结构 2

第二章 背景知识及相关技术 4

2.1维度和度量 4

2.2事实表和维度表 4

2.3多维数据模型 4

2.3.1星型模型 4

2.3.2雪花模型 5

2.3.3星系模型 5

2.3.4数据模型优劣程度比较 5

2.4数据仓库 6

2.5 Hadoop 6

2.6 Hive 6

2.7 HBase(Hadoop Database) 6

2.8联机分析处理(OLAP) 7

2.9 Apache Kylin 7

2.9.1 Apache Kylin的预计算技术 7

2.9.2 Apache Kylin构造Cube的算法 8

2.9.3 Apache Kylin的编码方式 8

第三章 基于SQL Server Analysis Services进行多维数据分析 10

3.1工具介绍 10

3.1.1 SQL Server 10

3.1.2 SQL Server Analysis Services 10

3.2关键问题与难点分析 10

3.3数据集导入SQL Server 11

3.3.1 纽约市违法停车数据集 11

3.3.2数据集预处理 12

3.3.3数据集导入SQL Server 13

3.4 建立Analysis Services多维和数据挖掘项目 13

3.4.1创建数据源与数据源视图DSV 13

3.4.2建立多维数据集 14

3.5查询并分析数据集 18

3.5.1利用浏览器页面进行查询 18

3.5.2使用可视化工具进行数据展示 19

3.6本章小结 22

第四章 基于Hive进行数据分析 23

4.1数据集导入Hive 23

4.1.1数据集 23

4.1.2数据集导入Hive 23

4.2进行数据查询分析 24

4.2.1通过命令行进行查询并观察所需时间 24

4.2.2通过可视化工具进行展示 25

4.3本章小结 27

第五章 基于Apache Kylin进行数据多维分析 29

5.1关键问题及难点分析 29

5.2数据集 29

5.3创建Kylin Project 30

5.4创建Kylin Model 31

5.5创建Kylin Cube 33

5.6通过Kylin Insight页面进行数据查询 37

5.7通过Qlik Sense可视化界面进行展示 38

5.8本章小结 41

第六章 总结与展望 42

6.1总结 42

6.2展望 42

参考文献 44

致谢 46

第一章 绪论

1.1选题背景与意义

随着科技的不断进步,信息技术的飞速发展,每天都有庞大的数据产生并不断的被积累。海量数据的收集只是大数据技术的第一步,对数据进行查询分析进而让其产生价值才是大数据领域的目标,如何积极利用这些数据产生价值成为当下社会的热门话题。

因此,大数据分析应运而生,这一技术开始变得炙手可热。数据分析的工具也应运而生。数据分析的目的是分析庞大的数据中所蕴含的信息,提取出一定的规律,被集体或个人所利用从而创造出价值。数据分析被应用到生活中的方方面面。在互联网行业,购物网站通过浏览记录分析用户喜好从而针对性的进行广告投放。在物流行业,物流公司通过大量数据可以优化物流网络,从而提升物流运输的效率。在智能医学方面,大数据可以对流行病进行一定程度的预测,降低感染疾病的风险。现在购物网站最常见的为用户推荐可能感兴趣的这一商品的功能,便是基于数据分析得到的。通过对用户过往购买行为和浏览行为进行记录,提取出相应的关键数据,并对其进行分析,从而得到商品推荐的结果。大数据带来的信息风暴,在一定程度上使我们的时代产生了变革。

剩余内容已隐藏,请支付后下载全文,论文总字数:26896字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;