0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Python 一个超快的公共情报搜集爬虫

科技绿洲 来源:Python实用宝典 作者:Python实用宝典 2023-11-03 15:16 次阅读

Photon是一个由s0md3v开源的情报搜集爬虫,其主要功能有:

1.爬取链接(内链、外链)。
2.爬取带参数的链接,如(pythondict.com/test?id=2)。
3.文件(pdf, png, xml)。
4.密钥(在前端代码中不小心被释放出来的)。
5.js文件和Endpoint(spring中比较重要的监视器)
6.匹配自定义正则表达式的字符串。
7.子域名和DNS相关数据。

你可以用它来干很多事,比如爬图片、找漏洞、找子域名、爬数据等等。而且提取出来的数据格式非常整洁:

图片

不仅如此,它甚至支持json格式 ,仅需要在输入命令的时候加上json参数:

python photon.py -u "http://example.com" --export=json

为什么能用来做情报搜集呢?耐心往后看哦。

1.下载安装

你可以上photon的github下载完整项目:
https://github.com/s0md3v/Photon

或者关注下方Python实用宝典公众号在后台回复photon获得国内网盘下载地址。下载后解压到你想要使用的地方。如果你还没有安装Python,建议阅读这篇文章:超详细Python安装指南,进行Python的安装。

安装完Python后,打开CMD(windows)/Terminal(macOS),下面简称为终端,进入你刚解压的文件夹,然后输入以下命令安装Photon的依赖:

pip install -r requirements.txt

如图所示:

图片

2.简单使用

注意,使用的时候要在Photon文件夹下。比如我们随便提取一个网站的URL试一下,在终端输入以下命令:

python photon.py -u https://bk.tencent.com/

结果如下:

图片

它会在当前目录下产生一个你测试的域名的文件夹,比如在我这里是 bk.tencent.com:

图片

嘻嘻,让我们看看里面有什么东西,有没有程序员留下的小彩蛋,打开external.txt,这是该网站的外链的存放位置。可以看到,这里不仅仅是只有网站页面,连CDN文件地址都会放在这里,所以external可能是个藏宝库哦。

图片

还能一下找出该网站上链接的全部开源项目:

图片

3.扩展

这个项目的价值,不仅在于能够快速拉取你想要得到的数据,还在于能够构建一个牛逼轰轰的 情报系统 (如果你威廉希尔官方网站 够强的话)。因为它是能不断延伸下去的,比如从外链出发,你能找到很多和这个网站相关的讯息:

图片

相比于搜索引擎搜索的结果,实际上这些信息更符合情报的要求。而且 不是所有的信息都能在搜索引擎搜索得到 ,而通过这个Photon,你可以顺藤摸瓜找到那些隐藏在互联网世界的它们。

试想一下,如果你搜集了很多这样的网站...然后用正则表达式搭建一个属于你自己的搜索引擎,这样的感觉是不是很棒?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 监视器
    +关注

    关注

    1

    文章

    780

    浏览量

    33129
  • 参数
    +关注

    关注

    11

    文章

    1832

    浏览量

    32197
  • 代码
    +关注

    关注

    30

    文章

    4780

    浏览量

    68535
  • python
    +关注

    关注

    56

    文章

    4793

    浏览量

    84631
  • 爬虫
    +关注

    关注

    0

    文章

    82

    浏览量

    6868
收藏 人收藏

    评论

    相关推荐

    Python数据爬虫学习内容

    ,利用爬虫,我们可以解决部分数据问题,那么,如何学习Python数据爬虫能?1.学习Python基础知识并实现基本的爬虫过程
    发表于 05-09 17:25

    Python爬虫与Web开发库盘点

    ,高层次的web抓取网页,并从web站点的页面中提取结构化的数据Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。最爽的就是它是框架,任何人都可以根据需求方便的修改,里面有很多类型爬虫的基
    发表于 05-10 15:21

    Python 爬虫:8 常用的爬虫技巧总结!

    的话,就需要多线程了,这里给简单的线程池模板 这个程序只是简单地打印了1-10,但是可以看出是并发的。虽然说python的多线程很鸡肋,但是对于爬虫这种网络频繁型,还是能定程度提高
    发表于 01-02 14:37

    0基础入门Python爬虫实战课

    学习资料良莠不齐爬虫门实践性的技能,没有实战的课程都是骗人的!所以这节Python爬虫实战课,将帮到你!课程从0基础入门开始,受众人群广泛:如毕业大学生、转行人群、对
    发表于 07-25 09:28

    Python爬虫简介与软件配置

    Python爬虫练习爬虫简介1. 介绍2. 软件配置二、爬取南阳理工OJ题目三、爬取学校信息通知四、总结五、参考
    发表于 01-11 06:32

    python网络爬虫概述

    、MySQL、MongoDB、Redis …关于爬虫的合法性几乎每个网站都有名为robots.txt的文档,当然也有有些网站没有设定。对于没有设定robots.txt的网站可以通过网络爬虫
    发表于 03-21 16:51

    Python 公共情报搜集爬虫——Photon

    Photon是由s0md3v开源的情报搜集爬虫,其主要功能有:1.爬取链接(内链、外链)。2.爬取带参数的链接,如(pythondict.com/test?id=2)。3.文件(p
    发表于 06-23 16:35

    完全自学指南Python爬虫BeautifulSoup详解

    完全自学指南Python爬虫BeautifulSoup详解
    发表于 09-07 08:55 39次下载
    完全自学指南<b class='flag-5'>Python</b><b class='flag-5'>爬虫</b>BeautifulSoup详解

    WebSpider——多个python爬虫项目下载

    此文档包含多个python爬虫项目
    发表于 03-26 09:29 3次下载

    Python爬虫8常用的爬虫技巧分析总结

    python也差不多年多了,python应用最多的场景还是web快速开发、爬虫、自动化运维:写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。
    的头像 发表于 08-18 11:45 5104次阅读

    python爬虫入门教程之python爬虫视频教程分布式爬虫打造搜索引擎

    本文档的主要内容详细介绍的是python爬虫入门教程之python爬虫视频教程分布式爬虫打造搜索引擎
    发表于 08-28 15:32 29次下载

    Python写网络爬虫

    Python写网络爬虫的方法说明。
    发表于 06-01 11:55 21次下载

    利用Python编写简单网络爬虫实例

    利用 Python编写简单网络爬虫实例2 实验环境python版本:3.3.5(2.7下报错
    发表于 02-24 11:05 14次下载

    Photon:公共情报搜集爬虫

    Photon是由s0md3v开源的情报搜集爬虫,其主要功能有: 1.爬取链接(内链、外链)。 2.爬取带参数的链接,如(pythondict.com/test?id=2)。 3.文
    的头像 发表于 10-31 15:17 516次阅读
    Photon:<b class='flag-5'>一</b><b class='flag-5'>个</b><b class='flag-5'>超</b><b class='flag-5'>快</b>的<b class='flag-5'>公共</b><b class='flag-5'>情报搜集</b><b class='flag-5'>爬虫</b>

    如何解决Python爬虫中文乱码问题?Python爬虫中文乱码的解决方法

    Python爬虫中文乱码问题。 、了解字符编码 在解决乱码问题之前,我们首先需要了解些基本的字符编码知识。常见的字符编码有ASCII、UTF-8和GBK等。 1. ASCII:是
    的头像 发表于 01-12 15:11 2342次阅读