论文总字数:32160字
摘 要
现如今,智能手机与人类社会密不可分,手机在人们生活中占有很大的比重。此外,安卓手机在手机市场的比重也逐年增加,如何保护用户的信息不被泄露成为安卓系统安全需要面临的一个重要问题。本文从研究背景讲起,并详细介绍了安卓传统的检测技术:动态检测与静态检测。接着介绍了安卓系统架构与安卓安全机制。安卓安全机制不仅包括继承于Linux系统的机制,还包括系统本身衍生出的机制。安卓软件信息都被压缩在APK中,通过APK反编译可以获取安卓应用的具体信息。本文详细介绍了从反编译的.samli文件中利用N-gram Opcode算法提取特征的过程与相关知识。紧接着,介绍了随机森林的基础知识:决策树与集成学习。在随机森林进行最终决策的时候,最终结果由大多数决策树决定,每个决策树的权重相同;改进的随机森林用袋外数据估计每一个树的准确率并把这些准确率作为一棵树决策时的权重,利用加权求和判断测试样本的所属类别。本文利用正常样本与恶意样本进行检测,发现改进后的效果更好,在某些样本测试中准确率高达99%。
关键词:静态检测; 恶意软件; N-gram; 改进随机森林
Abstract
Nowadays, smart phones are inseparable from human society, and mobile phones account for a large proportion of people's lives. At the same time, there are more and more Android phones in these years. Protecting users' private information from disclosure has become a significant question for Android system security. This article starts from the research background and introduces the traditional Android software detection technology in detail: dynamic detection and static detection technology. Then it introduces the Android system architecture and Android security mechanism. Android security mechanisms not only include mechanisms that inherit from Linux systems, but also mechanisms derived from the system itself. Android software information is compressed in the APK, and the APK can be decompiled to get the specific information of the Android application. This paper details the process and related knowledge of extracting features from the decompiled .samli file using the N-gram Opcode algorithm. Then we introduce the decision tree, the integrated learning method, and the random forest. The traditional random forest uses the simple voting principle in the decision tree, and every decision tree has the same importance; The improved random forest out-of-bag data estimates the accuracy of each tree and uses these accuracy rates as weights for a tree decision, using weighted summation to determine the class of the test sample. This paper uses normal samples and malicious samples to detect and finds that the improved effect is better. In some sample tests, the accuracy rate is as high as 99%.
Key words: static detection, malware, N-gram, improved random forest
目 录
摘要 3
Abstract 4
第一章 绪论 1
1.1研究背景及意义 1
1.2研究现状 2
1.2.1静态检测技术 2
1.2.2动态检测技术 3
1.3论文主要内容 4
1.4论文结构 4
第二章 Android系统架构及安全机制 5
2.1 Android系统架构 5
2.1.1安卓体系结构 5
2.1.2安卓Dalvik虚拟机 7
2.2安卓安全机制 8
2.3安卓系统恶意软件检测系统设计 10
第三章 基于N-gram opcode的安卓安装包特征提取 13
3.1APK反编译 13
3.1.1 APK结构 13
3.1.2反编译 15
3.2Dalvik指令集 16
3.3提取N-gram特征 17
第四章 随机森林算法 19
4.1随机森林算法介绍 19
4.1.1决策树 19
4.1.2集成学习 21
4.1.3随机森林 24
4.2随机森林算法改进介绍 24
4.3改进随机森林算法性能测试与分析 25
4.3.1实验数据及配置环境 25
4.3.2 N-gram特征提取对检测性能的影响 25
4.3.3数据集划分对检测性能的影响 27
4.3.4改进随机森林算法性能测试与分析 29
第五章 总结与展望 32
5.1总结 32
5.2展望 33
参考文献 34
致 谢 36
第一章 绪论
1.1研究背景及意义
计算机互联网时代的到来给世界带来了巨大的冲击,促使科学技术飞速发展。这些技术的发展也相应带动了移动终端的迅猛增长,移动设备的使用量不仅在中青年龄段增加之外,而且在少年、老年年龄段的使用量也在不断增加。任何事物的发展都会有它的弊端,如何阻止一些不法分子利用手机做违法之事是我们需要考虑的一个重要问题。如今的智能手机已经不单单只能够通话和发短信,电子商务、出行、视频浏览等娱乐方式都可以通过智能手机实现。然而,在使用这些功能的同时,个人信息也被储存在智能手机当中,成为一些不法分子的目标。倘若一个人的私人信息由于自己的手机而被泄露,这对这个人来说将是一个灾难。智能手机受众广泛,数量大,诈骗、盗取用户隐私等智能终端安全问题亟需解决。CNNIC的调查表示,截至在2018年年底的时候,使用手机网络支付的用户达到5.83亿,使用手机线下支付的比率还在逐年增长,与此同时,中国使用手机上网的总人数达到8.17亿[1]。截止至2018年,近11年来中国使用手机上网的人数增长趋势如图1-1所示。
图1-1:近11年中国使用手机上网的人数增长趋势图
剩余内容已隐藏,请支付后下载全文,论文总字数:32160字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;