论文数据集

Ndss16 数据集

  • Google Play:492534个
  • 中国Android应用程序商店:422505个。91应用市场、安智市场、应用汇、木蚂蚁
    整个数据集由600,000多个应用程序组成。

Google Play有一个专门的API,用于从商店搜索和下载应用程序,它还需要谷歌帐户凭据来完成这些任务。我们使用了PlayDrone,这是一个开源项目来抓取Google Play [14]。
Google根据Google账户和IP地址实施限速,如果在给定时间内有两个多请求,则禁止账户和IP地址。
PlayDrone通过无缝允许使用多个Google帐户和以分布式方式在多台机器上部署爬虫来缓解这个问题。

【使用PlayDrone工具软件可以破解并绕过 Google Play的安全系统下载Google Play应用,复原并分析这些应用的源代码。他们使用多台服务器进行破解。】

【PlayDrone是第一个可扩展的Google Play商店爬虫,并使用它每天索引和分析Google Play商店中的110多万个应用程序,这是Android应用程序中最大的此类索引。】

我们使用了多Google帐户功能,但通过使用一台机器并为该机器设置多个IP地址来简化系统。在我们的部署中,Google服务器的每一个新连接都是从二十个源IP地址中随机选择的。

从中国应用程序商店检索应用程序使用了自己的内部工具。

这些第三方商店有一个比Google Play简单得多的API,通常有一个与每个应用程序相关联的公共http/https URL。

虽然可以有复杂的方法来搜索每个应用程序,但我们采用的技术是基于这样的观察,即所有这些存储中的应用程序都有小整数范围内的标识符。请求为每个可能的标识符构造的网址足以完全废弃这些应用程序存储。

除去这些商店中多余的应用程序后,总数达到422,505个。大约30%的应用程序有本机代码,由于第四节中提到的实现原因,无法在我们的系统上测试。因此,我们整个可用的应用程序数据集由600,000多个应用程序组成。

恶意代码如何收集?恶意app怎么找到的?

Ndss16:

在触发链接之后,通过在虚拟化执行环境中运行的自定义的浏览器,将广告完全真实地加载到浏览器中,捕获重定向链。

将最终的登录页面加载在一个配置了真实用户代理和与移动设备相对应的窗口大小的浏览器中,模拟在浏览器中加载的页面上的点击,收集登陆页面上的所有链接,点击每个链接查看是否有文件下载。

通过VirusTotal(一个提供免费的可疑文件分析服务的网站)对收集到的URL和文件进行分析。

触发后整个框架通过Celery 分布式框架来管理,

EOE:

数据集:从Google Play中收集了3652个应用(第一个应用组:26个类别13000个流行应用组成;第二个应用组:浏览器应用)

使用EOEDroid进行分析

OSV:

数据集:在Google Play中从32个类别(每个类别的前540个应用)中抓取了17K个最受欢迎的免费应用。但是,并不是所有的应用都要分析。比如有些应用甚至不使用WebView。

建立了两个限定条件来缩小数据集。

  • 第一个是应用程序必须包含至少一个WebView实例。
  • 另一个条件是应用程序应该包含与postMessage相关的代码。

在Nexus 5中部署了OSV-Hunter来识别包含实际混合postMessage实现的应用程序。每个应用都测试了10分钟。最后,我们确定了74个实现混合邮件的应用程序,我们还发现所有这些应用程序都很脆弱。

DCV:

数据集:在Google Play中从32个类别(每个类别的前540个应用)中抓取了17K个最受欢迎的免费应用。

这些收集的应用程序上使用DCV-Hunter,

posted @ 2020-11-08 22:47  Ylxxxxx  阅读(282)  评论(0编辑  收藏  举报