0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Photon:一个超快的公共情报搜集爬虫

科技绿洲 来源:Python实用宝典 作者:Python实用宝典 2023-10-31 15:17 次阅读

Photon是一个由s0md3v开源的情报搜集爬虫,其主要功能有:

1.爬取链接(内链、外链)。
2.爬取带参数的链接,如(pythondict.com/test?id=2)。
3.文件(pdf, png, xml)。
4.密钥(在前端代码中不小心被释放出来的)。
5.js文件和Endpoint(spring中比较重要的监视器)
6.匹配自定义正则表达式的字符串。
7.子域名和DNS相关数据。

你可以用它来干很多事,比如爬图片、找漏洞、找子域名、爬数据等等。而且提取出来的数据格式非常整洁:

图片

不仅如此,它甚至支持json格式 ,仅需要在输入命令的时候加上json参数:

python photon.py -u "http://example.com" --export=json

为什么能用来做情报搜集呢?耐心往后看哦。

1.下载安装

你可以上photon的github下载完整项目:
https://github.com/s0md3v/Photon

或者关注下方Python实用宝典公众号在后台回复photon获得国内网盘下载地址。下载后解压到你想要使用的地方。如果你还没有安装Python,建议阅读这篇文章:超详细Python安装指南,进行Python的安装。

安装完Python后,打开CMD(windows)/Terminal(macOS),下面简称为终端,进入你刚解压的文件夹,然后输入以下命令安装Photon的依赖:

pip install -r requirements.txt

如图所示:

图片

2.简单使用

注意,使用的时候要在Photon文件夹下。比如我们随便提取一个网站的URL试一下,在终端输入以下命令:

python photon.py -u https://bk.tencent.com/

结果如下:

图片

它会在当前目录下产生一个你测试的域名的文件夹,比如在我这里是 bk.tencent.com:

图片

嘻嘻,让我们看看里面有什么东西,有没有程序员留下的小彩蛋,打开external.txt,这是该网站的外链的存放位置。可以看到,这里不仅仅是只有网站页面,连CDN文件地址都会放在这里,所以external可能是个藏宝库哦。

图片

还能一下找出该网站上链接的全部开源项目:

图片

3.扩展

这个项目的价值,不仅在于能够快速拉取你想要得到的数据,还在于能够构建一个牛逼轰轰的 情报系统 (如果你威廉希尔官方网站 够强的话)。因为它是能不断延伸下去的,比如从外链出发,你能找到很多和这个网站相关的讯息:

图片

相比于搜索引擎搜索的结果,实际上这些信息更符合情报的要求。因为存在禁止搜索引擎爬取的 robot.txt, 所以 不是网站的所有信息都能在搜索引擎搜索得到 ,而通过这个Photon,你可以顺藤摸瓜找到那些隐藏在互联网世界的它们。

试想一下,如果你搜集了很多这样的网站...然后用正则表达式搭建一个属于你自己的搜索引擎,这样的感觉是不是很棒?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 参数
    +关注

    关注

    11

    文章

    1832

    浏览量

    32197
  • 开源
    +关注

    关注

    3

    文章

    3322

    浏览量

    42473
  • 漏洞
    +关注

    关注

    0

    文章

    204

    浏览量

    15368
  • 爬虫
    +关注

    关注

    0

    文章

    82

    浏览量

    6867
  • photon
    +关注

    关注

    0

    文章

    32

    浏览量

    3682
收藏 人收藏

    评论

    相关推荐

    识别网络爬虫的策略分析

    的网络资源。由爬虫产生的网络流量占总流量的37.2%,其中由恶意爬虫产生的流量约占65%[1]。如何在网络流量中识别爬虫,是判断爬虫行为意图的前提,常见的使用
    的头像 发表于 09-14 09:08 1533次阅读
    识别网络<b class='flag-5'>爬虫</b>的策略分析

    项目管理部经理/项目管理课课长/项目管理师-上海

    性电子产品工作经历尤佳项目管理课课长-上海工作职责:1. 项目开发进程内部各单位之沟通协调2. 项目开发进程外部单位及客户之沟通协调3. 产业及客户讯息情报搜集及分析4. 金属产品制程及成本结构掌握
    发表于 01-20 11:43

    Python爬虫与Web开发库盘点

    ,高层次的web抓取网页,并从web站点的页面中提取结构化的数据Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。最爽的就是它是框架,任何人都可以根据需求方便的修改,里面有很多类型爬虫的基
    发表于 05-10 15:21

    物联网网关系统设计是怎么样的?

    、监控和管理的种网络。物联网是具有全面感知、可靠传输、智能处理特征的连接物理世界的网络。物联网用途广泛,遍及智能交通、环境保护、***工作、公共安全、平安家居、智能消防、工业监测、老人护理、个人健康、*卉栽培、水系监测、食品溯源、敌情侦查和
    发表于 08-08 07:50

    Python 公共情报搜集爬虫——Photon

    Photon由s0md3v开源的情报搜集爬虫,其主要功能有:1.爬取链接(内链、外链)。2.爬取带参数的链接,如(pythondict
    发表于 06-23 16:35

    基于SVM的主体爬虫采集方法

    为了准确高效采集航天领域内的竞争情报,提出了基于SVM的主题爬虫采集方法。设计了航天领域情报采集总体框架,采用支持向量机分类算法,利用适量已有航天情报信息,强化特定领域特征权重,训练航
    发表于 11-13 11:26 13次下载
    基于SVM的主体<b class='flag-5'>爬虫</b>采集方法

    物联网给人们带来什么变化?

    物联网用途广泛遍及智能交通、环境保护、政府工作、公共安全、平安家居、智能消防、工业监测、环境监测、老人护理、个人健康、花卉栽培、水系监测、食品溯源、敌情侦查和情报搜集等多个领域。
    的头像 发表于 05-04 14:05 6122次阅读

    Python爬虫速成指南让你快速的学会写最简单的爬虫

    本文主要内容:以最短的时间写最简单的爬虫,可以抓取论坛的帖子标题和帖子内容。 本文受众:没写过爬虫的萌新。
    的头像 发表于 06-10 09:57 7089次阅读
    Python<b class='flag-5'>爬虫</b>速成指南让你快速的学会写<b class='flag-5'>一</b><b class='flag-5'>个</b>最简单的<b class='flag-5'>爬虫</b>

    物联网的应用在中国将聚焦五大领域

    物联网有许多广泛的用途,遍及智能交通、环境保护、政府工作、公共安全、平安家居、智能消防、工业监测、老人护理、个人健康、花卉栽培、水系监测、食品溯源、敌情侦查和情报搜集等多个领域。
    发表于 10-10 09:48 3041次阅读

    爬虫是如何实现数据的获取爬虫程序如何实现

    进入大数据时代,爬虫威廉希尔官方网站 越来越重要,因为它是获取数据的重要手段,是大数据和云计算的基础。那么,爬虫到底是如何实现数据的获取的呢?今天和大家分享的就是
    发表于 01-02 16:30 10次下载
    <b class='flag-5'>爬虫</b>是如何实现数据的获取<b class='flag-5'>爬虫</b>程序如何实现

    哪些物联网应用将会在中国爆发

    物联网有许多广泛的用途,遍及智能交通、环境保护、政府工作、公共安全、平安家居、智能消防、工业监测、老人护理、个人健康、花卉栽培、水系监测、食品溯源、敌情侦查和情报搜集等多个领域。
    发表于 03-25 09:15 463次阅读

    cps物联网威廉希尔官方网站 的应用案例

    物联网用途广泛,遍及智能交通、环境保护、政府工作、公共安全、平安家居、智能消防、工业监测、环境监测、路灯照明管控、景观照明管控、楼宇照明管控、广场照明管控、老人护理、个人健康、花卉栽培、水系监测、食品溯源、敌情侦查和情报搜集等多个领域。
    的头像 发表于 11-17 10:59 1.4w次阅读

    Photon情报搜集爬虫的主要功能与安装使用说明

    你可以用它来干很多事,比如爬图片、找漏洞、找子域名、爬数据等等。
    的头像 发表于 06-23 16:35 1076次阅读
    <b class='flag-5'>Photon</b><b class='flag-5'>情报搜集</b><b class='flag-5'>爬虫</b>的主要功能与安装使用说明

    基于Particle Photon的物联网WiFi时钟

    方案介绍 快速建立wifi支持的时钟,通过互联网保持准确的时间。 步骤 1. 焊接显示器 对齐显示器到PCB和焊接5引脚。 2. 面包板 把Particle
    发表于 12-06 11:59 0次下载

    Python 公共情报搜集爬虫

    Photon由s0md3v开源的情报搜集爬虫,其主要功能有: 1.爬取链接(内链、外链)。 2.爬取带参数的链接,如(pythondi
    的头像 发表于 11-03 15:16 510次阅读
    Python <b class='flag-5'>一</b><b class='flag-5'>个</b><b class='flag-5'>超</b><b class='flag-5'>快</b>的<b class='flag-5'>公共</b><b class='flag-5'>情报搜集</b><b class='flag-5'>爬虫</b>