APP数据采集怎么实现的？（附带大仙分享爬坑技巧）

作者：keven 发布时间：3/12/2018 10:14:14 AM 43094 人已阅读

摘要：最近半年，我们八爪鱼陆续接到好几个APP数据采集的项目需求，我在群里面，偶尔也看到有些用户在问，有没有APP数据采集的工具。

最近半年，我们八爪鱼陆续接到好几个APP数据采集的项目需求，我在群里面，偶尔也看到有些用户在问，有没有APP数据采集的工具。鉴于我们做过的几个APP数据采集项目的经验，我可以告诉大家，现在APP数据采集，市面上还没有通用的工具。我们八爪鱼内部是有一套工具，但由于使用的难度较高，需要编写脚本，所以不对普通用户公开，我们仅接受项目定制。

虽然不对外公开，但并不妨碍我们将技术分享出来，APP数据采集，一般走以下两种方式：

1.两种思路

1. 抓包

2. HOOK

2.抓包

有代码经验或APP开发的同学都很容易理解，其实很多APP，走的都是webservice通讯协议的方式，并且由于是公开数据，而且大部分是无加密的。所以只要对网络端口进行监测，对APP进行模拟操作，即可知道APP里面的数据是如何获取的。

我们只需要写代码模拟其请求，无论POST还是GET，即可得到该请求所返回的信息。再通过对返回的信息结构化解析，即可得到我们想要的数据。

public static void main(String[] args) {

Spider.create(new GithubRepoPageProcessor())

//从https://github.com/****开始抓

.addUrl("https://github.com/****")

//设置Scheduler，使用Redis来管理URL队列

.setScheduler(new RedisScheduler("localhost"))

//设置Pipeline，将结果以json方式保存到文件

.addPipeline(new JsonFilePipeline("D:\\data\\webmagic"))

//开启5个线程同时执行

.thread(5)

//启动爬虫

.run();

}

以模拟采集“meizu”应用市场为例

应用市场产品

抓包返回参数

整个抓包过程

3.HOOK技术

HOOK技术是一种走操作系统内核的技术，由于安卓系统是开源的，所以可以借助一些框架修改内核，从而实现你要的功能。HOOK的形式，我们走的是Xposed框架。Xposed是一款可以在不修改任何其他开发者开发的应用（包括系统服务）的情况下，改变程序运行的一个开源框架服务。基于它可以制作出许多功能强大的模块，以此来达到应用程序按照你的意愿运行的目的。

如果把安卓手机看做一座城堡，那Xposed可以让你拥有一个上帝视角，城里的运作细节尽收你眼底，还能让你插一手改变城堡的运作规律。

什么意思呢？简单的说就是你可以通过他，自动化的控制你的APP。如果将我们的APP开在模拟器上，我们可以通过编码，通过他告诉APP这一步干什么，下一步干什么。你把它理解成类似按健精灵或游戏打怪外挂就可以了。

而他每走一步，APP与服务端交互的数据，均可获取下来。这种方式广泛用于一些成熟的APP。比如某信采集。

public class HookActivity implements IXposedHookLoadPackage {

@Override

public void handleLoadPackage(LoadPackageParam lpparam) throws Throwable {

final String packageName = lpparam.packageName;

XposedBridge.log("--------------------: " + packageName);

try {

XposedBridge.hookAllMethods

(Activity.class, "onCreate", new XC_MethodHook() {

@Override