抖音理解
抖音的风控一直都十分严格,因此爬取过程中都是有上限的,我目前采用了两种方式同时进行:
- 控屏方式
- rpc-server方式api请求。
控屏方式大概使用了20台手机,每台手机每次跑一个小时到一个半小时,一天跑一次,每次三个手机一起跑,轮流至所有手机跑完。循环三次(虽然很想吐槽),
控屏方式一天一台手机大概可以跑200个,一共大概可以跑4000个kol一天。
api方式使用了28台手机,每台手机每次跑100个,一天跑两次,早8晚8。一天可以跑5600个kol。
技巧详解
第一种方式(控屏方式)采用技巧:
- 通过uiautomator2控屏,自动在hot页面进行翻页。
- 通过中间人攻击方式,改写hot页面转个人主页的user_id,从而改变手机页面自动发送的请求。
- 通过识别方式,自动过滤广告,无效内容等。
抖音版本:6.8.0
第二种方式(rpc方式)采用技巧:
- 使用一台手机,时刻链接着电脑。
- 开启frida-server和相关接口服务。
- 通过调用接口,获取加密后的x-g和x-k
备注:rpc方式需要设备的三个请求的具体参数,需要通过抓包方式缓存到redis里面,并且提前需要对手机进行2-3天的认为刷抖音行为。
抖音版本:抖音极速版