scripts/finetune/robonet-256-act-cond.sh

accelerate launch train_tokenizer.py \
    --exp_name robonet_tokenizer_ft --output_dir log_vqgan --seed 0 --mixed_precision bf16 \
    --model_type ctx_vqgan \
    --train_batch_size 2 --gradient_accumulation_steps 4 --disc_start 1000005 \
    --oxe_data_mixes_type tfds_robonet --resolution 256 --dataloader_num_workers 16 \
    --rand_select --video_stepsize 1 --segment_horizon 12 --segment_length 8 --context_length 2 --no_aug \
    --pretrained_model_name_or_path pretrained_models/ivideogpt-oxe-256-act-free/tokenizer \
    --max_train_steps 200005


accelerate launch train_gpt.py \
    --exp_name robonet_llama_ft --output_dir log_trm --seed 0 --mixed_precision bf16 \
    --vqgan_type ctx_vqgan \
    --pretrained_model_name_or_path {log directory of finetuned tokenizer}/unwrapped_model \
    --config_name configs/llama/config.json --load_internal_llm --action_conditioned --action_dim 5 \
    --pretrained_transformer_path pretrained_models/ivideogpt-oxe-256-act-free/transformer \
    --per_device_train_batch_size 4 --gradient_accumulation_steps 2 \
    --learning_rate 1e-4 --lr_scheduler_type cosine \
    --oxe_data_mixes_type tfds_robonet --resolution 256 --dataloader_num_workers 16 \
    --video_stepsize 1 --segment_length 12 --context_length 2 \
    --use_eval_dataset --use_fvd --use_frame_metrics \
    --weight_decay 0.01 --llama_attn_drop 0.1 --embed_no_wd \
    --max_train_steps 600005