[原理]
robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
[目标]
掌握robots协议的知识
[工具]
扫目录脚本dirsearch(项目地址:https://github.com/maurosoria/dirsearch)
[步骤]
1.根据提示robots,可以直接想到robots.txt,
2.或通过扫目录也可以扫到: python dirsearch.py -u http://10.10.10.175:32793/ -e *
3.访问http://111.198.29.45:33982/robots.txt发现f1ag_1s_h3re.php
4.访问http://111.198.29.45:33982/f1ag_1s_h3re.php得到flag
什么是robots协议:
Robots协议(Robots Exclusion Protocol)是网站与网络爬虫之间的核心交互规则,通过robots.txt文件指导搜索引擎爬虫的访问权限。
定义
Robots协议是存放在网站根目录的纯文本文件(robots.txt),通过声明规则控制爬虫对特定页面或目录的访问权限。其核心目的是平衡网站隐私保护与内容开放需求。
基本结构
User-agent: <爬虫名称或*>
Disallow: <禁止访问的路径>
Allow: <允许访问的路径>
Sitemap: <网站地图路径>
User-agent:指定适用爬虫(如User-agent: *表示所有爬虫)。
Disallow/Allow:路径需以/开头,支持通配符*(如Disallow: /*.pdf$禁止PDF文件)。
暴露机制与风险场景
通过robots协议会暴露以下内容:
1. 敏感路径直接暴露
后台路径泄露:若robots.txt中明确禁止爬虫访问/admin/或/user_data/等目录,攻击者可反向推断这些路径存在敏感功能,针对性尝试访问。
备份文件路径暴露:如配置Disallow: /*.bak$或Disallow: /backup/,可能暗示网站存在备份文件,攻击者可绕过规则直接访问未屏蔽的同名文件。
2. 系统类型识别
CMS指纹泄露:robots.txt中禁止的路径(如/wp-admin/或/phpmyadmin/)可能暴露网站使用的WordPress、phpMyAdmin等系统,便于攻击者利用已知漏洞。
中间件路径暴露:如Disallow: /tomcat-manager/可能暗示服务器部署了Tomcat,攻击者可尝试默认端口(8080)访问管理界面。
3. 路径遍历攻击诱导
通配符误用:若配置Disallow: /*?*禁止带参数的URL,攻击者可能尝试/admin;jsessionid=xxx等绕过规则,触发路径遍历漏洞。
问题是考察对于“robots协议”的利用与认知,以下是具体解题步骤:
1.开启环境,点击robots进入环境
2.进入后,发现页面空白:
结合题目“robots”这说明这道题是关于考验我们对robots协议的理解的
3.直接构造url访问robots协议,一般robots协议都直接放在网站主目录下
http://223.112.5.141:49594/robots.txt
4.访问后页面:
5.发现了一个flag文件:f1ag_1s_h3re.php
白送的flag当然要去看一下啦,构造url:
http://223.112.5.141:49594/f1ag_1s_h3re.php
6.访问后直接出现了flag
http://223.112.5.141:49594/f1ag_1s_h3re.php
版权声明与原创承诺
本文所有文字、实验方法及技术分析均为 本人原创作品,受《中华人民共和国著作权法》保护。未经本人书面授权,禁止任何形式的转载、摘编或商业化使用。
道德与法律约束
文中涉及的网络安全技术研究均遵循 合法合规原则:
1️⃣ 所有渗透测试仅针对 本地授权靶机环境
2️⃣ 技术演示均在 获得书面授权的模拟平台 完成
3️⃣ 坚决抵制任何未授权渗透行为
技术资料获取
如需完整实验代码、工具配置详解及靶机搭建指南:
�� 请关注微信公众号 「零日破晓」
后台回复关键词 【博客资源】 获取独家技术文档包
法律追责提示
对于任何:
✖️ 盗用文章内容
✖️ 未授权转载
✖️ 恶意篡改原创声明
本人保留法律追究权利。