数学理论在数据分析中的应用

 2023-06-04 12:02:14

论文总字数:8567字

摘 要

大数据是指数据规模非常庞大的数据集,对大数据的分析就是要挖掘数据背后的价值(信息、趋势等).本文我们主要对具体案例进行分析,整理一些数学理论在数据分析中的具体应用,从而理解数学理论在数据分析中的重要地位.

关键词:大数据,数据分析,探索性空间分析,线性规划,列联表,发生比之比

Abstract: Big data is a data set, whose scale is very large. The aim of analyzing big data is to excavate the potential value of the data (information, tendency and so on). In this paper, through analyzing some specific cases, we look forward to induce the application of mathematical theory in data analysis and understand the important status of mathematical theory in data analysis.

Keywords: Big data, data analysis, exploratory spatial analysis, linear programming, contingency table, odds ratio

目 录

1 引言 ………………………………………………………………………… 4

2 数据分析的方法与所运用数学知识的整理 ……………………………… 4

3 软件介绍 …………………………………………………………………… 6

4 具体案例分析 …………………………………………………………… 7

4.1探索性空间数据分析数学理论 ………………………………………7

4.2线性规划 …………………………………………………………………8

4.3列联表与发生比之比 ……………………………………………………10

结论 …………………………………………………………………………… 12

参考文献 ……………………………………………………………………… 13

致谢 …………………………………………………………………………… 14

1 引言

乍一看,大数据这个词似乎相当模糊,指的是大的和充分的信息.这种描述确实符合要求,但它没有提供信息大数据到底是什么.极大型数据集可以表示为大数据,管理和分析它们的传统数据处理工具已经跟不上数据更新的步伐.大数据定义了一个情况:数据集已经非常的庞大,传统信息技术不能有效地处理数据集的大小或数据集的规模和增长.换句话说,数据集已经如此巨大,以至于难以管理,甚至更难获得价值.主要困难是搜索、共享、分析.

给人的第一印象,大数据是一个较为抽象的定义,它表示数据的规模巨大.以往的“海量数据”(massive data)、“超大规模数据”(very large data)等概念与大数据概念之间看不出区别多大.大数据面对挑战,无论是从严谨还是从定义角度去分析,任何有能力去发现和利用大数据价值的手段都应值得推广. 从多维角度去思考大数据的方法或许更容易被公众所接受.大数据具有以下一些特点[1]:

规模性(Volume):大数据体现规模的“大”,企业里充斥着数据,甚至有些积累着TB或者PB级规模的信息.

多样性(Variety):大数据可以说是所有结构化数据(包括非结构化数据:音频、文本、视频等等)里多样性最为复杂多样的.

高速性(Velocity):数据的传播是以光速进行的,数据的积累速度更是飞快,数据的更新速度甚至以微秒计算.

价值性(Value)是国际数据公司(International Data Corporation, IDC推崇的第四V定义,他们认为稀疏性的特点更能体现数据的价值,而真实性(Veracity)则是IBM认为大数据应该必然具有的属性.

2 数据分析的方法与所运用数学知识的整理

对大数据进行分析是当前国际交流最为活跃的领域,很多有价值的,智能的,深入的信息往往是通过数据分析获得的.大数据的分析方法在大数据领域显得尤为重要,主要体现在数据的多样性,数量、存储等等不断增长的复杂性,决定最终信息是否有价值的决定性因素就是数据分析.

数据分析已经如此重要,数学理论在数据分析里的作用更是重中之重,数据分析里处处体现着数学思想,数学工具的多样性导致了多种领域数据分析软件技术的发展,本文在此粗略整理了部分数学思想的核心理论在数据分析中的地位:

(1)数据挖掘算法[8].算法本身就是一种数学理论,数据挖掘算法是数据分析的核心.一套设计巧妙地算法可以大大提高分析数据速度,缩短分析数据流程,简化分析数据复杂性,减少分析数据的资源的损耗.假如一个算法要经过好几年才能把结论算出,那么数据的价值已经不复存在了.要想深入数据内部,挖掘出公认的数据的价值,各种数据挖掘的算法必须基于不同的数据类型和格式,才能更加科学的呈现出数据本身具备的特点.

(2)可视化分析.所谓的可是化,就是要把数据分析的结果以一种直观的,明了的,通俗易懂的图片的形式表示出来.作图是一种数学本领,把图片这种数学工具用到数据分许中,是因为大数据分析的使用者有大数据分析专家,同时还有普通用户,他们二者对于大数据分析最基本的要求就是可视化分析,可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了.

(3)语义引擎.说白了,就是计算机编程.编程设计里用到最多的就是数学公式,计算机数学语言,还有数学逻辑.学习编程很重要,美国总统奥巴马还动员全体美国公民去学习编程.好的编程能够设计出一套高效的工具系统去分析,提炼数据,从而来面对非结构化数据的多元化给数据分析带来新的挑战.语义引擎需要设计者设计到有足够的人工智能,以便能够从数据中主动地提取信息.

(4)数据质量和数据管理.网络与图论等数学知识大量充斥在数据管理学中,数据质量和数据管理与数据分析紧密相连,无论是在学术研究还是在商业应用领域,高质量的数据和有效的数据管理,都能够保证分析结果的真实和有价值.

(5)预测性分析.函数图像的运用往往能够反映出数据背后隐藏的某种趋势,这种趋势即为预测性分析.预测性分析是数据分析应用领域的一种最为重要的应用.从大数据中挖掘出特点,通过科学的建立模型,之后通过模型带入新的数据,从而预测未来的数据.

以上五个方面可以说是大数据分析的基础,当然更加深入大数据分析的话,还有很多很多更加专业的,更加有特点的,更加深入的大数据分析方法,如

(1)大数据的技术数据采集:ETL工具处理出的数据是联机分析处理、数据挖掘的基础,它的主要责任是对存储在临时中间层的数据进行清洗、转换、集成,最后加载到数据仓库或数据集市中去,而这些数据也是由ETL工具负责将分布的、异构数据源中的数据如:关系数据、平面数据文件等抽取出来放到临时中间层去的.

剩余内容已隐藏,请支付后下载全文,论文总字数:8567字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;