记录一次某暗网镜像网站的爬虫

作者：记录一次某暗网镜像网站的爬虫

最近在搞BF这个暗网网站的爬虫，但是由于BF被封了，所以在明网上找找他的替代品。讲讲遇到的坑（附截图）。 1、反调试：网站通过嵌入 debugger; 语句阻止使用 F12 抓包。一旦打开 DevTools，页面便会强制暂停，导致无响应。解决方法为右上角的“禁用所有断点”即可恢复正常。 2、F12 无法抓取登录包：在登录页输入账号密码后点击登录，页面会直接重定向至主页，F12 中无法捕获包含账号密码的请求包。建议使用 BurpSuite 进行抓包。 3、重定向：登录流程为获取令牌 → 提交登录 → 跳转以维持会话。登录页地址为 GET /member.php?action=login，登录提交地址为 POST /member.php。服务器返回 302 Found，重定向至首页 /index.php，并设置登录态 Cookie（如 mybb[lastactive]、mybb[loggedinattempts]、mybb[sid]、mybbuser 等），同时 Cloudflare 后台监控会对人工判断产生干扰。因此，简单依赖抓包后硬编码的方式无法实现登录，需通过代码实现自动登录并动态获取有效 Cookie。 4、搜索详情页：搜索功能通过 POST 提交搜索表单（包含关键词、排序方式等参数），服务器生成临时搜索结果集后重定向至结果页。初期抓包时仅捕获了搜索完成后的请求，并将其硬编码至爬虫中，导致 URL 无效并返回 404。解决方案是按浏览器标准流程操作：先访问搜索表单页，获取 CSRF 令牌和初始参数；然后提交搜索请求，指定关键词及筛选条件；待服务器生成临时结果集并完成重定向后，再获取最终搜索结果页，从中提取所需的目标数据。 5、HTML 结构庞大且复杂：采用简化后的正则表达式进行匹配处理。

文章详情

记录一次某暗网镜像网站的爬虫

推荐阅读