登录注册

从源码到算力 —— 一站式 AIGC 资源平台

海量源码、弹性算力、模型服务与行业数据集，支持企业级落地与二次开发。

源码市场

成熟项目源码、部署文档与二次开发支持

弹性算力

按小时计费、容器化部署、分布式集群

模型服务

微调、私有化、上云 API 一体化

20k+

解决方案

行业覆盖

金融 / 医疗 / 安防 / 教育

一键部署

源码 → 测试 → 生产

AIGC源代码

精选 6 个热销源码 · 支持一键部署

小狐狸AIGC创作系统开源源码小程序无限多开AI聊天AI绘图AI视频SunoAI音乐

AIGC源代码

通采（河北）信息服务有限公司

￥面议

查看联系

AIGC导航系统网站源码AI站点分类AI工具集合精选源码导航资讯博客

AIGC源代码

彭灿辉

￥面议

查看联系

AIGC智能付费问答小程序源码应用场景

AIGC源代码

方贤珍

￥面议

查看联系

AI人工智能问答对话系统/AIGC/chatgpt源码

AIGC源代码

广州叮咚科技集团有限公司

￥面议

查看联系

chatgpt网站源码/mj/ai绘画ai写作对话/aigc/人工智能/全开源无加密

AIGC源代码

方贤珍

￥面议

查看联系

ai绘画ai换装ai制图ai聊天ai对话/模型训练/lora模型/人工智能aigc

AIGC源代码

彭灿辉

￥面议

查看联系

算力出租

NVIDIA A100 / A800 / RTX40 系列 · 按需计费

GPU 算力产品 NVIDIA H20

AIGC源代码

通采（河北）信息服务有限公司

￥面议

查看联系

GPU 算力产品高性价比推理渲染卡

AIGC源代码

通采（河北）信息服务有限公司

￥面议

查看联系

算力容器 NVIDIA A100 80GB PCIe

AIGC源代码

广州叮咚科技集团有限公司

￥面议

查看联系

GPU 算力产品高性能训练卡

AIGC源代码

广州叮咚科技集团有限公司

￥面议

查看联系

算力容器 NVIDIA A800 SXM4 80GB

AIGC源代码

米塔互联数字科技（湛江）有限公司

￥面议

查看联系

算力容器 NVIDIA A100 SXM4 80GB

AIGC源代码

米塔互联数字科技（湛江）有限公司

￥面议

查看联系

模型服务

微调 / 私有化 / API 化 · 行业场景到位

chatgpt/sd/mj/ai绘画ai换装ai制图ai聊天ai对话/模型训练/lora模型/人工智能aigc

AIGC源代码

彭灿辉

￥面议

查看联系

【chatgpt】AI许愿信抖音微信小程序H5版本代制作智能模型问答套餐卡密模式上下文关联

AIGC源代码

方贤珍

￥面议

查看联系

chatGPT/mj/AI绘画AI写作AI对话/模型训练/智能聊天助理/

AIGC源代码

彭灿辉

￥面议

查看联系

ChatGPT人工智能对话模型h5版生成转换训练翻译恋爱聊天写作毕业论文自动智能AI机器人

AIGC源代码

彭灿辉

￥面议

查看联系

奇引AI 大模型 AI绘画老照片修复上色 UGC裂变码短视频抖音矩阵爆店码视频混剪视频剪辑

AIGC源代码

方贤珍

￥面议

查看联系

ChatGPT小程序人工智能对话模型丨AI写作chatgpt机器人APP丨会员智能聊天写作系统源码

AIGC源代码

方贤珍

￥面议

查看联系

数据集服务

清洗 / 标注 / 定制化交付 · 覆盖多行业

亮数据服务

AIGC源代码

方贤珍

￥面议

查看联系

自服务数据集构建强大的数据处理

AIGC源代码

彭灿辉

￥面议

查看联系

人脸识别技术-van17

AIGC源代码

彭灿辉

￥面议

查看联系

算法-Benchmarks

AIGC源代码

方贤珍

￥面议

查看联系

数据集处理-imagenet2012_small

AIGC源代码

彭灿辉

￥面议

查看联系

数据集社交-social-spammer

AIGC源代码

方贤珍

￥面议

查看联系

详情描述

利用 wget命令下载数据（一共四个数据文件）。

wget https://image-net.org/data/ILSVRC/2012/ILSVRC2012_img_train.tar
wget https://image-net.org/data/ILSVRC/2012/ILSVRC2012_img_val.tar
wget https://image-net.org/data/ILSVRC/2012/ILSVRC2012_img_train_t3.tar
wget https://image-net.org/data/ILSVRC/2012/ILSVRC2012_img_test_v10102019.tar
利用tar命令解压缩数据包放入指定文件夹

首先尝试解压缩部分文件探索数据文件目录结构：tar -xvf ./ILSVRC2012_img_train_t3.tar -C test。然后，通过bash命令批处理删除生成的文件：find ./test -name '*.JPEG' -type f -print -exec rm -rf {} \;。

经探索发现文件结构如下：

| - - ILSVRC2012_img_train.tar
      | - - n01440764.tar
            | - - n01440764_2708.JPEG
            | - - n01440764_7173.JPEG
            ···
      ···
| - - ILSVRC2012_img_val.tar
      | - - ILSVRC2012_val_00010062.JPEG
      | - - ILSVRC2012_val_00009546.JPEG
      ...
| - - ILSVRC2012_img_train_t3.tar
      | - - n02085620.tar
            | - - n02085620_10074.JPEG
            | - - n02085620_10131.JPEG
            ···
      ···
| - - ILSVRC2012_img_test_v10102019.tar
      | - - test
            | - - ILSVRC2012_test_00013640.JPEG
            | - - ILSVRC2012_test_00020698.JPEG
            ···
      ...
编写python脚本文件批处理解压并删除中间tar文件：

import tarfile
import os
from tqdm import tqdm

def get_tar(path):
    tar_files = []
    for name in os.listdir(path): # 遍历当前目录下所有文件和文件夹
        if '.tar' in name: # 筛选出当前文件夹下需要解压的 .tar 文件
            tar_files.append(name)
    return tar_files

def untar(ori_file):
    print("Untar the file: " + ori_file)
    new_dir_name = os.path.splitext(ori_file)[0]
    tar = tarfile.open(ori_file)
    names = tar.getnames()
    for name in tqdm(names):
        tar.extract(name, new_dir_name)
        if '.tar' in name:
            new_ori_file = os.path.join(new_dir_name, name) # 获取 tar 包内的 tar 包文件
            untar(new_ori_file) # 解压 tar 包
            os.remove(new_ori_file) # 解压完成后删除 tar 包
    tar.close()

def main():
    abs_path = os.getcwd()  # 获取当前文件所在目录绝对路径
    tar_files = get_tar(abs_path) # 获取待解压的所有 tar 包
    for tar_file in tar_files:
        ori_file = os.path.join(abs_path, tar_file)
        untar(ori_file)

if __name__ == "__main__":
    main()
上述代码保证了解压缩完的数据文件与原始的tar包文件结构一致（去除.tar后缀直接做文件夹名称）。

获取标签
从官网下载 Development Kit，获取1000个分类类别标签。

两个压缩包解压后的目录结构如下所示：

| - - ILSVRC2012_devkit_t12
      | - - COPYING
      | - - data
            | - - ILSVRC2012_validation_ground_truth.txt
            | - - meta.mat
      | - - evaluation
            | - - *.txt
            | - - *.m
      | - - readme.txt
其中，true label 的 value 存储于ILSVRC2012_devkit_t12/data/文件夹下。其中.txt文件包含 50,000 验证集的 class index values，每一行为对应图片（images 按序编号）的 class index label。

另外，其余训练集信息包含于meta.mat文件中，用 matlab 打开该文件，其中大小为
1860
×
1
1860×1的 synsets 结构体包含的数据详情如下截图所示：

struct:synsets

其中关键信息为 ILSVRC2012_ID 和 WNID 两列，分别对应 class true label 和训练集文件夹名称。

数据集与标签匹配关系（借用 Cheat Sheet of Counting Files or Folders 探索解压后文件夹结构）

训练集ILSVRC2012_img_train下一级目录名（#1000）均可在 synsets 结构体 WNID 列（#1860）内找到对应，从而可以锁定以 WNID 为目录名下所有图片标签。

验证集ILSVRC2012_img_val下直接存储验证集所有图片（#50000），其文件名为ILSVRC2012_val_00000001到ILSVRC2012_val_00050000。这时我们需要借助ILSVRC2012_devkit_t12/data/ILSVRC2012_validation_ground_truth.txt文件来匹配文件名所对应的 ILSVRC2012_ID，从而在 synsets 结构体中与 WNID 关联。

测试集（#100000）同验证集

综上所述，训练集通过目录名称 -> synsets -> WNID -> ILSVRC2012_ID匹配上标签，验证集和测试集通过文件名 -> ILSVRC2012_validation_ground_truth.txt -> synsets -> ILSVRC2012_ID -> WNID匹配上标签。

数据集整理
训练集目录结构刚好符合 torchvision.datasets.ImageFolder 的目录结构安排。

以此为标准，我做了如下的整理：

训练集结构不变，次级目录名称由 WNID 改为 ILSVRC2012_ID
验证集与测试集按照训练集标准安排结构，类别序号（ILSVRC2012_ID）做目录名称，包含该类别所有图片
编写python脚本按照上述思路整理数据集:

import os
import shutil
import scipy.io as sio

def rename_train(meta_data, img_root):
    dir_names = os.listdir(img_root)
    for dir_name in dir_names:
        for item in meta_data:
            if dir_name == item[0][1][0]:
                os.rename(os.path.join(img_root, dir_name), os.path.join(img_root, str(item[0][0][0][0])))
                break

def group_val(ground_truth, img_dir):

    with open(ground_truth) as f:
        lines = f.readlines()
        labels = [int(line.strip()) for line in lines]

    filenames = os.listdir(img_dir)

    for filename in filenames:
        img_idx = int(filename.split('_')[-1].split('.')[0])
        ILSVRC_ID = labels[img_idx - 1]
        output_dir = os.path.join(img_dir, str(ILSVRC_ID))
        if not os.path.isdir(output_dir):
            os.mkdir(output_dir)
        shutil.move(os.path.join(img_dir, filename), os.path.join(output_dir, filename))
        pass

if __name__ == "__main__":
    synsets = '/data/Datasets/ImageNet2012/ILSVRC2012_devkit_t12/ILSVRC2012_devkit_t12/data/meta.mat'
    ground_truth = '/data/Datasets/ImageNet2012/ILSVRC2012_devkit_t12/ILSVRC2012_devkit_t12/data/ILSVRC2012_validation_ground_truth.txt'
    val_dir = '/data/Datasets/ImageNet2012/ILSVRC2012_img_val'
    train_dir = '/data/Datasets/ImageNet2012/ILSVRC2012_img_train'
    meta_data = sio.loadmat(synsets)["synsets"]
    a = meta_data[0, 0][1][0]
    rename_train(meta_data, train_dir)
    group_val(ground_truth, val_dir)
其中rename_val用于训练集分类别目录重命名，group_val用于验证集图片整理。

整理完的训练集与验证集目录结构如下（同 torchvision.datasets.ImageFolder）：

| - - ImageNet2012
      | - - ILSVRC2012_img_train
            | - - 1
                  | - - n02119789_10007.JPEG
                  | - - n02119789_10584.JPEG
                  | - - n02119789_11491.JPEG
                  ...
            | - - 2
                  ...
            ...
      | - - ILSVRC2012_img_val
            | - - 1
                  | - - ILSVRC2012_val_00000756.JPEG
                  | - - ILSVRC2012_val_00006145.JPEG
                  | - - ILSVRC2012_val_00009128.JPEG
                  ...
            | - - 2
                  ...
            ...
根据统计，训练集共有 1,281,167 张图片+标签，验证集有 50,000 张图片+标签，测试集有 100,000 张图片，和官方标准一样。

写在最后
本文目的在于探索一个未知数据集的具体解决思路，从python脚本语言入手简洁明了。为了更加高效，可直接移步pytorch官方bash处理方法

Reference
[1] Official pytorch example

[2] ILSVRC2012 Official Website

[2] ImageNet数据集到底长什么样子？ - 七个太阳的回答 - 知乎

[3] ImageNet使用方法？ - 薰风初入弦的回答 - 知乎

可视化