工业缺陷检测数据集指南:钢材、PCB、织物等主流公开资源整理

工业缺陷检测数据集指南:钢材、PCB、织物等主流公开资源整理
工业缺陷检测数据集指南做工业缺陷检测最难的从来不是模型而是数据。真实产线上良品远多于次品缺陷样本天生稀缺而企业又因质量与商业顾虑很少把图像对外公开于是公开数据集长期偏少、规模偏小、且分散在大学实验室、Kaggle 竞赛和个人 GitHub 仓库里授权条款各不相同。下面这份指南按产品与材料类型梳理当前真实可访问的主流公开数据集每个链接都已确认在线、并标明标注形式与授权边界你可以据此直接动手。综合异常检测基准先看 MVTec AD 与 VisA如果你做的是无监督异常检测只用良品训练让模型把任何偏离当作缺陷这是当前最常用的两个基准。MVTec AD是这一方向事实上的标准库包含 15 个物体与纹理类别、5000 多张高分辨率图像缺陷区域带像素级标注覆盖瓶子、电缆、药片、地毯、皮革、金属网格等多种品类。要特别注意它的授权是 CC BY-NC-SA 4.0明确禁止商用只能用于学术研究落地到产品前必须确认这一边界。VisAVisual Anomaly由 Amazon Science 发布包含 12 个类别共 10821 张图像9621 张正常、1200 张异常涵盖多种 PCB、胶囊、腰果、口香糖等异常含表面划痕、凹陷、色斑、错位、缺件等结构性与表面性缺陷提供像素级掩码。它采用 CC BY 4.0允许商用是 MVTec AD 之外一个授权更宽松的选择。钢材与金属表面NEU 表面缺陷数据库东北大学是钢材方向的经典分类数据集含 1800 张 200×200 灰度图分裂纹、夹杂、斑块、麻点、氧化铁皮压入、划痕 6 类每类 300 张适合做分类与检测基线后续工作另有目标检测的 NEU-DET 扩展版。Severstal 钢材缺陷检测来自 Kaggle 竞赛规模更大也更贴近产线训练集 12568 张 1600×256 灰度图4 类缺陷标注以 CSV 中的游程编码RLE掩码给出是做有监督分割的优质数据需登录 Kaggle 并接受竞赛规则后下载。KolektorSDD与升级版KolektorSDD2来自斯洛文尼亚 ViCoS 实验室采集自真实工业环境的金属电子换向器表面前者 399 张图52 张含缺陷后者 3335 张356 张含缺陷分训练 / 测试都提供缺陷标注。两者均为 CC BY-NC-SA 4.0商用需联系作者。它的正负样本极不平衡正好用来检验小样本与弱监督方法。磁瓦表面缺陷数据集中科院自动化所收集了气孔、断裂、裂纹、磨损、不均匀等多类磁瓦缺陷并附像素级标注可用于分割任务。通用纹理与光学检测DAGM 2007Weakly Supervised Learning for Industrial Optical Inspection是德国模式识别学会 2007 年竞赛数据共 10 组人工生成的纹理表面每组含大量良品与少量缺陷图弱标签以椭圆形掩码粗略圈出缺陷区。它采用 CC BY 4.0 许可常用于弱监督缺陷检测研究。PCB 与电路板DeepPCB提供 1500 对图像每对含一张无缺陷模板与一张对齐的待测图覆盖开路、短路、鼠咬、毛刺、孔洞、余铜 6 类 PCB 缺陷标注为带类别的轴对齐边界框采用 MIT 许可可直接用于检测训练。VisA 中的 PCB 子集也可作为补充。织物与纺织AITEX 织物图像数据库AFID由西班牙 AITEX 纺织研究所发布含 245 张 4096×256 织物图140 张无缺陷、105 张含缺陷覆盖断经、断纬、起球、折痕、结头、污染等 13 类织物缺陷并附缺陷位置掩码适合纺织表面检测研究。主流数据集速查表数据集产品类型缺陷标注形式图像数量正负样本比授权协议适用场景MVTec AD15 类物体与纹理瓶子、电缆、药片、地毯等像素级标注5000正常为主缺陷样本有限CC BY-NC-SA 4.0非商用无监督异常检测学术基准入门首选VisA12 类PCB、胶囊、腰果、口香糖等像素级掩码10821正常 9621异常 1200≈8:1CC BY 4.0允许商用无监督异常检测商用友好可替代 MVTec ADSeverstal钢材表面RLE 像素掩码12568未明确4 类缺陷Kaggle 竞赛规则需登录商用需查具体条款有监督分割贴近产线钢材检测KolektorSDD2金属电子换向器缺陷区域标注3335正常 2979异常 356≈8.4:1CC BY-NC-SA 4.0非商用可联系作者商用小样本 / 弱监督异常检测极不平衡样本实验DeepPCBPCB 板轴对齐边界框6 类缺陷1500 对模板 待测共 3000 幅未明确MIT允许商用有监督 PCB 缺陷检测直接可用选择建议与常见坑先按你的标注条件选路线手里只有良品、缺陷形态难以穷举就走无监督异常检测优先 MVTec AD学术或 VisA可商用已有成对的良品/缺陷标注、且想精确定位缺陷形状就走有监督分割优先 Severstal、KolektorSDD2 这类带像素掩码的数据只需判断“有无缺陷、属哪一类”NEU、DeepPCB 这类分类/检测数据即可起步。几个反复出现的坑值得提前留意一是正负样本极不平衡缺陷图往往只占百分之几直接训练容易把模型带偏要用过采样、难例挖掘或异常检测范式来应对二是商用授权MVTec AD、KolektorSDD 系列都是非商用许可VisA、DeepPCB、DAGM 则相对宽松产品化前务必逐个核对三是域差异公开数据的光照、相机、材质与你自己的产线几乎不可能一致跨域直接用通常掉点严重要预留迁移学习或少量真实样本微调的环节。参考资料与延伸阅读1. 文中数据集官方链接MVTec ADhttps://www.mvtec.com/company/research/datasets/mvtec-adVisAhttps://github.com/amazon-science/spot-diffNEU 表面缺陷数据库https://github.com/jonathanwvd/awesome-industrial-datasets/blob/master/markdown/neu_surface_defect_dataset.mdSeverstal 钢材缺陷检测https://www.kaggle.com/competitions/severstal-steel-defect-detectionKolektorSDD / KolektorSDD2https://www.vicos.si/resources/kolektorsdd2/磁瓦表面缺陷数据集https://github.com/abin24/Magnetic-tile-defect-datasets.DAGM 2007https://zenodo.org/records/12750201DeepPCBhttps://github.com/tangsanli5201/DeepPCBAITEX 织物图像数据库AFIDhttps://www.aitex.es/afid/2. 推荐综述与经典方法论文《Deep Learning for Anomaly Detection: A Survey》— Chalapathy 等综述了无监督、半监督与有监督异常检测方法是理解工业缺陷检测范式的优质入口。链接https://arxiv.org/abs/1901.03407《A Review of Deep Learning in Industrial Surface Defect Detection》— Luo 等聚焦工业表面缺陷检测的深度学习进展涵盖数据集、方法分类与产线部署。链接https://ieeexplore.ieee.org/abstract/document/9645400《PaDiM: a Patch Distribution Modeling Framework for Anomaly Detection and Localization》— Defard 等提出基于预训练 CNN 特征建模的经典方法在 MVTec AD 上效果突出、实现简单。链接https://link.springer.com/chapter/10.1007/978-3-030-68799-1_353. MVTec AD 数据集 BibTeX 引用示例inproceedings{bergmann2019mvtec, title {MVTec AD -- A Comprehensive Real-World Dataset for Unsupervised Anomaly Detection}, author {Bergmann, Paul and Fauser, Michael and Sattlegger, David and Steger, Carsten}, booktitle {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition}, pages {9592--9600}, year {2019}, doi {10.1109/CVPR.2019.00982} }