文章详情

专注互联网科技,赋能企业数字化发展

记录一次某暗网镜像网站的爬虫

作者:记录一次某暗网镜像网站的爬虫

最近在搞BF这个暗网网站的爬虫,但是由于BF被封了,所以在明网上找找他的替代品。讲讲遇到的坑(附截图)。 1、反调试:网站通过嵌入 debugger; 语句阻止使用 F12 抓包。一旦打开 DevTools,页面便会强制暂停,导致无响应。解决方法为右上角的“禁用所有断点”即可恢复正常。 2、F12 无法抓取登录包:在登录页输入账号密码后点击登录,页面会直接重定向至主页,F12 中无法捕获包含账号密码的请求包。建议使用 BurpSuite 进行抓包。 3、重定向:登录流程为获取令牌 → 提交登录 → 跳转以维持会话。登录页地址为 GET /member.php?action=login,登录提交地址为 POST /member.php。服务器返回 302 Found,重定向至首页 /index.php,并设置登录态 Cookie(如 mybb[lastactive]、mybb[loggedinattempts]、mybb[sid]、mybbuser 等),同时 Cloudflare 后台监控会对人工判断产生干扰。因此,简单依赖抓包后硬编码的方式无法实现登录,需通过代码实现自动登录并动态获取有效 Cookie。 4、搜索详情页:搜索功能通过 POST 提交搜索表单(包含关键词、排序方式等参数),服务器生成临时搜索结果集后重定向至结果页。初期抓包时仅捕获了搜索完成后的请求,并将其硬编码至爬虫中,导致 URL 无效并返回 404。解决方案是按浏览器标准流程操作:先访问搜索表单页,获取 CSRF 令牌和初始参数;然后提交搜索请求,指定关键词及筛选条件;待服务器生成临时结果集并完成重定向后,再获取最终搜索结果页,从中提取所需的目标数据。 5、HTML 结构庞大且复杂:采用简化后的正则表达式进行匹配处理。

返回新闻列表