0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一个在GitHub上一个开源的鉴黄图像数据集

电子工程师 来源:lq 2019-02-18 09:53 次阅读

前方高能预警,非战斗人士请火速撤离……

今天给大家介绍一个在 GitHub 上一个开源的鉴黄图像数据集,它拥有 158万的数据量,叫做 NSFW data source URLs,目前该项目已收获 918 star 了。

项目地址:

https://github.com/EBazarov/nsfw_data_source_urls

在 raw_data 文件夹里,可以找到不同的 .txt 格式的文档,每个文档都含有一组 URL,以下是关于该数据集的一些统计信息

159个 不同的类别

158.9331 万个 URL

下载并清洗后大约有 500GB,或者说有 130 万张 NSFW 图像

以下为项目中图片截图示例:

注意事项:

1. 建议下载后清洗下数据集,例如:

删除重复图片

移动被禁止/删除掉的图片(它们有一个特殊的图像占位符)

找出损坏的数据并将其删除

2. 注意噪声,一些资源提供了 NSFW 和中性图像的高度混合数据。

3. 该库还可以帮助检索 NSFW 图像,针对中性图像没有专用的 URL。

值得一提的是,在该项目之前还有一个类似的开源项目 nsfw_data_scrapper,里面有 22 万张图像,同样也可以用来检测或训练鉴黄系统。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24700
  • GitHub
    +关注

    关注

    3

    文章

    471

    浏览量

    16440

原文标题:上班时间请勿打开,158万张鉴黄图片数据集来喽~

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    华为云 Flexus X 实例部署安装 HivisionIDPhoto 轻量级的 AI 证件照制作算法

    背景 最近有开源项目非常火,就是 HivisionIDPhotos 轻量级的 AI 证件照制作算法
    的头像 发表于 12-25 17:08 81次阅读
    华为云 Flexus X 实例部署安装 HivisionIDPhoto <b class='flag-5'>一</b><b class='flag-5'>个</b>轻量级的 AI 证件照制作算法

    一个月速成python+OpenCV图像处理

    OpenCV是广受欢迎且极为流行的计算机视觉库,它因其强大的功能、灵活性和开源特性而在开发者和研究者中备受青睐。学习OpenCV主要就是学习里面的计算机视觉算法。要学习这些算法的原理,知道它们
    的头像 发表于 11-29 18:27 139次阅读
    <b class='flag-5'>一个</b>月速成python+OpenCV<b class='flag-5'>图像</b>处理

    基于FPGA的JPEG-LS图像压缩器介绍

    现在来看GitHub上面开源的JPEG LS算法的Verilog实现
    的头像 发表于 10-15 17:27 395次阅读
    基于FPGA的JPEG-LS<b class='flag-5'>图像</b>压缩器介绍

    OPA690设计简单的同向比例放大器,如果负载加上一个50欧姆的电阻,输出波形即失真了怎么解决?

    您好,我用贵公司OPA690设计简单的同向比例放大器,增益为9倍,输入信号为800mv(峰峰值)、频率最大为10M。结果是我放大9倍已经实现了,但是如果负载加上一个50欧姆的电阻,输出波形即失真了,麻烦指点下?为了能够驱动
    发表于 09-23 08:24

    晶振电路旁边为何要并上一个电阻?

    设计电路时,通常看到些主控的外部高速晶振并联了1MQ的电阻,但是发现有的电路不用也可以正常工作。般来说,单片机的时钟电路是使用外部
    的头像 发表于 09-12 08:10 1294次阅读
    晶振电路旁边为何要并<b class='flag-5'>上一个</b>电阻?

    socket对应连接吗

    的接口,允许不同计算机之间建立连接,进行数据交换。socket可以看作是两程序之间的通信端点,由IP地址和端口号唯
    的头像 发表于 08-16 10:55 489次阅读

    20个数据可以训练神经网络吗

    当然可以,20个数据点对于训练神经网络来说可能非常有限,但这并不意味着它们不能用于训练。实际上,神经网络可以训练非常小的数据
    的头像 发表于 07-11 10:29 889次阅读

    esp32无法烧录github上的固件,为什么?

    我准备用esp32-s2模组来做一个简易的激光雕刻机 代码是github上的https://github.com/bdring/FluidNC 在运行安装脚本的时候,提示我芯片是esp32-s2
    发表于 06-17 08:00

    开源项目】自制创客专属的无反相机

    /T-Display-S3-Pro</span> 然后这里有测试用的示例相机程序:<span>https://github.com/moononournation
    发表于 02-29 15:50

    spi读取多个字节的时候该怎么判断UART的上一个字节已经读完了?

    想问下 spi 的 SPI_SpiIsBusBusy() 的这个API UART 中怎么实现,读取多个字节的时候该怎么判断 UART 的上一个字节已经读完了?
    发表于 02-02 06:54

    Harvard FairSeg:第一个用于医学分割的公平性数据

    为了解决这些挑战,我们提出了第一个大规模医学分割领域的公平性数据, Harvard-FairSeg。该数据旨在用于研究公平性的cup-d
    的头像 发表于 01-25 16:52 555次阅读
    Harvard FairSeg:第<b class='flag-5'>一个</b>用于医学分割的公平性<b class='flag-5'>数据</b><b class='flag-5'>集</b>

    GitHub多项服务故障,与升级MySQL有关?

    从事故报告页面来看,GitHub 当时的解决方案是将相关问题隔离到个数据中心进行处理。
    的头像 发表于 01-11 11:34 479次阅读
    <b class='flag-5'>GitHub</b>多项服务故障,与升级MySQL有关?

    OpenCV4中联通组件分析的缺点

    最近别人给了我生物数据分割的标注数据,让我训练下,发现这个
    的头像 发表于 01-04 15:51 443次阅读
    OpenCV4中联通组件分析的<b class='flag-5'>一</b><b class='flag-5'>个</b>缺点

    labview怎么获取图像数据

    LabVIEW中获取图像数据主要有两种方法:采集实时图像和加载静态图像、采集实时
    的头像 发表于 01-04 09:48 2281次阅读

    mysql怎么新建个数据

    mysql怎么新建个数据库 如何新建个数据MySQL中 创建
    的头像 发表于 12-28 10:01 896次阅读