PyTotch CIFAR-10 vs Kaggle CIFAR-10 : Totally different result for exactly same architecture on CIFAR-10

Question

I have been learning PyTorch for some weeks. While I was practicing with CIFAR-10 dataset from PyTorch datasets, I also thought of practicing with ImageFolder class, so I found a version of Cifar-10 from Kaggle, where the images were foldered.(I you don't remember PyTorch datasets are in tar.gz format, not in folder structure)

To my utter surprise, in spite of using the same loss function, learning rate and architecture, The Kaggle dataset test set accuracy starts from 0.18 and PyTorch dataset accuracy starts from 0.56 at epoch 1.

Finally after 20 epochs ,one almost saturates near 0.45 and the later one almost fixes near 0.86.

I have checked again and again,but not finding any big difference in those two codes. I really want to know, if I have done anything deadly wrong, or there is anything fundamentally different about those two datasets.

To clarify, I am using this Pytorch dataset, and this Kaggle dataset . The codes are too large to be provided here, so I am providing links my notebooks, you are welcome to take a look at my whole code, and also can run if necessary [You only need to use your Kaggle API key to download the dataset from kaggle, I can't make mine one public...sorry for the inconvinience] Kaggle Dataset Notebook here and Pytorch Dataset Notebook here

I am also providing the chunk of code that I think , is mostly different.

Kaggle Dataset:

Epoch 1 score = 0.18 Epoch 20 score = 0.45

from torch.utils.data import DataLoader

def createVal(train_list, root_folder, classes, valid_split ):
    try:
        os.mkdir(os.path.join(root_folder, 'val'))
    except FileExistsError:
        pass
    for cls in classes:
        try:
            os.mkdir(os.path.join(root_folder, 'val', cls))
        except FileExistsError:
            pass

    np.random.shuffle(train_list)

    valid_len = len(train_list) * valid_split
    for i in tqdm(range(int(valid_len))):
        shutil.move(train_list[i], train_list[i].replace('/train/', '/val/'))
    
valid_split = 0.2
batch_size = 32
num_workers = 4

root_folder = "/content/cifar10/cifar10"
train_folder = os.path.join(root_folder, "train")
test_folder = os.path.join(root_folder, "test")


if valid_split:
  createVal(train_list, root_folder, classes, valid_split = valid_split)

  val_folder = os.path.join(root_folder, "val")

  val_data = datasets.ImageFolder(val_folder, transform = transform)
  val_loader = DataLoader(val_data, batch_size = batch_size, num_workers = num_workers )

train_data = datasets.ImageFolder(train_folder, transform = transform)
train_loader = DataLoader(train_data, shuffle = True, batch_size = batch_size, num_workers = num_workers )

test_data = datasets.ImageFolder(test_folder, transform = transform)
test_loader = DataLoader(test_data, batch_size = batch_size, num_workers = num_workers )

Pytorch Dataset:

Epoch 1 score = 0.18 Epoch 20 score = 0.45

valid_split = 0.2
batch_size = 32
num_workers = 4

if valid_split:
  num_train = len(train_data)
  idx = list(range(num_train))
  np.random.shuffle(idx)
  train_idx = idx[int(valid_split*num_train):]
  val_idx = idx[:int(valid_split*num_train)]

  train_sampler = SubsetRandomSampler(train_idx)
  val_sampler = SubsetRandomSampler(val_idx)

  train_loader = DataLoader(train_data, sampler = train_sampler, batch_size = batch_size, num_workers = num_workers )
  val_loader = DataLoader(train_data, sampler = val_sampler, batch_size = batch_size, num_workers = num_workers )
else:
  train_loader = DataLoader(train_data, batch_size = batch_size, num_workers = num_workers )

test_loader = DataLoader(test_data, batch_size = batch_size, num_workers = num_workers )

are both, the pytorch and the kaggle dataset already normalized? Or both not normalized? — Theodor Peifer, Dec 01 '20 at 08:27

score 0 · Answer 1 · answered Dec 01 '20 at 09:01

0

I see , difference in method of shuffling the training dataset. Kaggle dataset : train_loader > shuffle = True Pytorch Dataset : train_loader > No shuffle

When using shuffle ==True , it will do RandomSampler function .

answered Dec 01 '20 at 09:01

Naveenkumar

45
7

Will that really make that much difference in map score?? – Sawradip Saha Dec 02 '20 at 13:58
I don't see any difference in dataset or method of training. Try both with shuffle==True . then we will know , it is impacting or not. – Naveenkumar Dec 03 '20 at 06:15

PyTotch CIFAR-10 vs Kaggle CIFAR-10 : Totally different result for exactly same architecture on CIFAR-10

Kaggle Dataset:

Pytorch Dataset:

1 Answers1