基本信息(属性/职业)
姓名:吕帅君
性别:♂
爱好:旅游🚶,音乐🎸,电竞🎮and♀
博客:shuaijun777.com
目前工作:爬虫/后台/逆向工程师
工作时长:2017-05, 至今
年龄:28
学校:烟台大学
专业:物联网工程专业
邮箱:617543247@qq.com
📱 : 18010096743
更新时间
2024-12
人生格言
It’s better to burn out than to fade away
技能简介(QWER)
Q
- 熟练掌握MacOs,Linux,Windows,Android等系统,能够自主搭建集成环境。
- 熟练掌握常用数据库:MySQL, MongoDB, redis等数据库使用。
- 熟练使用git管理源代码。
- 代码风格良好,熟练应用restful api,PEP8等编码风格。
W
- 熟练掌握python语言。
- 熟练掌握MarkDown语法。
- 熟悉各种基本加密算法,了解TCP/UDP/HTTPS等网络协议。
- 熟悉docker,能够编写并部署docker服务。
- 熟练掌握Wsgi,flask,django,fastapi等交互框架。
- 了解各种编程语言,如:java, 汇编,android, objective-c, javascript等等。
- 熟练使用IDA Pro 7.0/9.0, Android Studio, Postman, Charles, Wireshark, jadx-tool等软件。
E
- 熟练掌握scrapy,scrapy-redis等爬虫框架。
- 熟练掌握线程,协程和进程等并熟练应用以提高爬虫效率。
- 熟练掌握自动化测试控件(selenium,puppeteer等)
- 熟练使用js,css,HTML等前端技术。
- 能够根据需求逆向网页js。
- 自主研究并攻破过各种反爬手段。
R
- 代码简洁干净,略有代码洁癖,对代码逻辑性和可扩展性有很高的要求。
- 熟悉逆向流程并且对逆向安全十分感兴趣并以之为方向。
- 具有较强的逻辑思维能力和耐心。
- 对新型技术乐此不疲,喜欢研究和破解!
工作经历(2017-05至今)
[2020-04] >> [至今]
所在公司:久远谦长技术服务有限公司
任职: 爬虫工程师 SH Leader
主要工作内容:
- 开发维护微信公众号/快手/红书/抖音等多个APP的爬虫项目并持续维护至今,数据量级从开始的百万级一直到如今的亿级。
- 从零搭建爬虫整套工作爬虫框架系统:CyberServer,实现了可分布式、高效、稳定的爬虫框架,并让爬虫和需求全面切割,目前服务已上线1年多,支持平台20+,接口70+,任务流600+
- 配合其他pm进行产品/项目任务拆分和工作内容分配,最多时团队内部6人。
- 支持omnivoice/solix两个产品超4年的稳定数据支持,产品年营收超千万。
成长自述:
久谦在是我执业时间最久的公司了,他给了我充分的信任和足够的发挥空间,让我能够在爬虫领域拓宽知识领域并实践各种可能性,同时每个老师都十分优秀,能够协同合作是我的荣幸。
[2018-07] >> [2020-04]
所在公司:深圳市小赢科技有限责任公司
任职: 后端+爬虫工程师
主要工作内容:
- 全权负责并研发信用卡账单项目。
- 接手电商项目,并且将爬取完整率和成功率均提升至98%。
- 组内唯一负责逆向研究,并且成功找到获取芝麻分途径。
- 参与社保公积金登陆爬取服务,成功上线运行并保持高度成功及爬取率。
成长自述:
小赢给了我很大的帮助和成长空间,让我从单纯的爬虫工程师,接触到了后台,数据,甚至是逆向等之前从未接触过的领域。成功脱变成了一个成熟稳重,逻辑思维清晰的工程师,并且有了对架构,逆向等有了不一样的理解。
[2018-04] >> [2018-07]
所在公司:北京今晨盛辉信息技术有限公司
任职:爬虫工程师
主要工作内容:
- 负责对p2p平台后台的授权登陆破解及用户数据分布式爬取(主要是h5)
- 负责对互联网金融论坛数据爬取,并且解析入库。
- 负责不同业务服务配置docker,研究macaca/emulator等android自动化测试工具。
成长自述:
今晨是在北京第一家公司,有非常良好的工作环境和氛围,让我充分的融入了北京快节奏的生活节奏,并且以极快的速度成长,因为公司处于创业阶段,我能够尽可能多的尝试不同领域的工作内容,并且结实了很多优秀的小伙伴~
[2017-05] >> [2018-02]
所在公司:辽宁成大
任职:python工程师
主要工作内容:
- 海外贸易网站的分布式爬虫爬取系统研发,页面解析和结构化数据提取,海量数据存储和读取等。
- 研究贸易相关网站、网页、链接的形态,发现他们的特点和规律。
- 负责爬虫核心算法优化和研究,提升爬虫抓取质量和效率。
- 负责HTTPS、AJAX等各类网络请求分析,探索和研究高效数据抓去方案。
成长自述:
成大是一家以外贸为主的进出口贸易公司,也是我人生中第一家公司,它给予我的是非常充足的学习时间和充裕的学习内容,并且一个非常好的工作氛围,非常感谢各位哥哥姐姐们的帮助!
项目经历(2017-05至今)
由于项目内容较多,仅挑选较为重要项目简述
[2020-04] >> [至今]
项目名称:微信公众号服务
项目概述:微信自动化养号方案配合设备进行mitmproxy数据抓取,接手后对方案进行优化,基本上省去所有人为操作步骤,全流程自动化,量级支持达到6w+公众号小时级数据更新
项目主要涉及网站:mp.weixin.qq.com
项目负责:
- 100+微信号的自动化养护
- 迭代开发和维护稳定的数据输出
- 支持新增/周更/日更/小时更等不同频率的数据更新
- 提供异步任务系统消费&清洗服务
项目技术涉及:
- mitmproxy中间人攻击技术
- android adb 自动化
- xposed编写插件配合Lsposed载入微信apk中,配合无root设备获取x-wechat-key & x-wechat-uin等
- android反编译
- 解密设备wx数据库获取最新推送数据进行数据抓取
[2022-06] >> [至今]
项目名称:红书/抖音/快手数据服务
项目概述:通过KOL列表更新其新发布文章及文章评论等内容,开放异步任务服务消费客户/后端传递的文章/KOL进行定制化更新
项目主要涉及网站:xiaohongshu.com/douyin.com/kuaishou.com
项目负责:
- 通过android/web/ios三端对红书/抖音/快手进行不同程度的研究登录和数据接口的逆向和破解,不断突破红书的各类风控
- 播放量抓取
- 支持新增/周更/日更/小时更等不同频率的数据更新
- 提供异步任务系统消费&清洗服务
- 不断寻找平台/关系平台漏洞接口并应用
项目技术涉及:
- js逆向/app逆向/ios逆向/部分算法逆向
- android/ios 自动化
- ttweak插件/xposed插件源代码便携构建、应用
- lldb/frida/ida动态调试、hook、反编译、脱壳等
[2021-12] >> [至今]
项目名称:蒲公英/星图/磁力巨星等后台价格网站数据服务
项目概述:根据不同平台的风控对平台内价格数据进行全量数据抓取,进行不同频率的数据更新,不断对相关平台进行迭代
项目主要涉及网站: pgy.xiaohongshu.com/xingtu.cn/k.kuaishou.com/…
项目负责:
- 维护各个平台登录账号
- 逆向负责平台自动化登录或维护相关cookie保证可用
- 根据数据需求定期对站内所有数据进行数据抓取,对数据进行基本的清洗并入库到产品中。
- 设计日报系统,实时监控爬取状态和进程。
项目技术涉及:
- js破解登陆加密。
- 通过js模拟滑块轨迹和破解浏览器指纹js,解决滑块实现秒级登陆。
- 整合多个平台数据抓取逻辑并对代码进行规整。
[2022-10] >> [2024-至今]
项目名称:CyberServer
项目概述:根据公司内部对数据的需求,开发出通用、可扩展、可分布式、可定制化、可优先级、异步爬虫任务系统,并自动化对接ocr/stt等内容识别功能
- 提供了20+不同平台涉及的api解扩
- 提供了70+个不通渠道功能的稳定爬虫接口
- 目前已经只吃了1200+任务执行,超200+定时任务稳定抓取
- 已经稳定提供服务超2年以上
- 支持流式任务执行方案
项目负责:
- 服务的设计及整个任务系统的服务开发测试及上线。
- 服务后续功能新增及任务维护。
- 服务对接各个产品/项目数据服务的工作。
- 该服务配套监控服务系统/日报系统的开发及测试上线。
项目技术涉及:
- 服务采用了分离式设计,区分了任务提交/任务消费/数据清洗多个模块。
- 服务各个部分分别采用了fastapi/celery/rabbitmq/redis/kafka/mongodb等共同实现。
- 设计了高可用异步任务完成逻辑。
- 设计并实现了分布式、可扩展的爬虫消费模块,让爬虫的可扩展性大大提高。
- 设计了可自定义的任务方案,让各种数据需求都可以简单的配置并应用,以最快的速度进行数据输出。
[2019-10] >> [2020-04]
项目名称:社保公积金服务
项目概述:通过用户授权,登陆各个地方社保公积金网址,抓取个人社保公积金信息等数据,入库并存储,给移动端提供数据来源,并且供政策分析个人用户画像
项目主要涉及网站:各个地方社保公积金网站
项目负责:
- 根据要求分析破解社保公积金网站登陆。
- 破解相关网址攻防。
- 设计登陆 + 爬取 + 转发的框架模式,方便集成代码和数据提供。
- 采用协程和多进程方式提高爬取效率。
- 设计日报系统,实时监控爬取状态和进程。
项目技术涉及:
- js破解登陆加密。
- 通过js模拟滑块轨迹和破解浏览器指纹js,解决易盾滑块,点选验证登陆,实现秒级登陆。
- 集成代码,过滤冗余代码。
- 采用gunicorn + gevent搭建基础框架,完成接口间的基础服务。
[2018-12] >> [2019-09]
项目名称:电商信息提取服务
项目概述:通过用户授权,登陆淘宝,抓取阿里相关账单和个人信息等数据,入库并存储。
项目主要涉及网站:淘宝网,支付宝主页
项目负责:
- 自研服务(研究破解淘宝登陆以及支付宝登陆并自研抓取相关数据)
- 第三方服务(用于自研服务的备用服务,能够实现和自研同样的效果)
- 授权转接服务(用于分流任务转接到第三方备用登陆或者自研服务登陆)
- 代理服务(用于自动话分配已存在代理ip供整个电商项目使用)
- 滑块服务(使用selenium配合django等破解淘宝滑块)
- 项目中涉及敏感用户信息脱敏工作。
项目其他涉及:采用灰度策略,打点系统,日志监控系统,日/周报系统,代理服务,定时系统全程监控服务的稳定性。
项目技术涉及:
- gevent + wsgi + 多进程搭建交互框架。
- js破解,逆向,反爬策略攻克。
- 数据精度解析,数据精度脱敏。
- selenium + django + 缓动函数 破解淘宝滑块(所有)
[2019-01] >> [2019-05]
项目名称:芝麻分项目
项目概述:通过逆向、hook服务、反编译等达到获取用户芝麻分效果。
项目主要涉及app:淘宝app
项目负责:
- 调研芝麻分项目可行性,并且给出可行性方案。
- 反编译app,并且成功找到相关加密入口,接口调用相关so文件,并尝试使用IDA动静结合逆向。
- 和安全部门人员共同开发Xposed的hook服务。
项目技术涉及:反编译,android Xposed服务开发,逆向等相关技术。
[2018-04] >> [2018-07]
项目名称:polaris_crawler
项目概述:主要实现用户授权登陆多家p2p平台,实现对其账单爬取,之后汇总在app上显示并提示用户定期还款。
项目主要涉及网站:分期乐,极速贷,京东白条,久融金融,你我贷,拍拍贷,信富期贷,熊猫分期,豆豆钱,光速微贷,极速贷吧,银河闪贷等。
项目负责:
- 基于scrapy-redis框架的分布式爬虫框架开发及迭代。
- 授权登陆反爬破解。
- 账单,个人信息等信息提取入库。
- 代码迭代更新,维护,测试。
项目其他涉及:MySQL,MongoDB,Redis等数据库应用,代理服务双线逻辑,动态可配置爬取服务。
项目技术涉及:scrapy-redis, docker化部署,js登陆破解,selenium自动化模拟登陆,macaca模拟登陆,第三方服务接入等。