microsoft · jingyuanlm · Jan 9, 2026 · Jan 7, 2026 · Jan 7, 2026
diff --git a/rdagent/app/data_science/conf.py b/rdagent/app/data_science/conf.py
@@ -201,7 +201,7 @@ class DataScienceBasePropSetting(KaggleBasePropSetting):
     enable_reward_model_selection: bool = True
     """Enable reward model based hypothesis selection."""
 
-    reward_model_path: str ="/data/Blob_EastUS/FinetuneAgenticLLM/reward_ckpt/last_run_6" #"/data/userdata/v-lijingyuan/last_run_2"# "/data/userdata/v-lijingyuan/last_run_2"#"/data/Blob_EastUS/FinetuneAgenticLLM/reward_ckpt/last_run_2"
+    reward_model_path: str ="/data/Blob_EastUS/FinetuneAgenticLLM/reward_ckpt/last_run_8" #"/data/userdata/v-lijingyuan/last_run_2"# "/data/userdata/v-lijingyuan/last_run_2"#"/data/Blob_EastUS/FinetuneAgenticLLM/reward_ckpt/last_run_2"
 
     #"/data/Blob_EastUS/FinetuneAgenticLLM/reward_ckpt/last_run_2"
     #"/data/userdata/v-lijingyuan/last_run_2"
@@ -216,7 +216,7 @@ class DataScienceBasePropSetting(KaggleBasePropSetting):
     #competition_mapping_path: str = "/data/userdata/v-lijingyuan/dpo/comp_to_scen.json"
 
 
-    reward_base_model: str = "Qwen/Qwen3-0.6B"
+    reward_base_model: str = "Qwen/Qwen3-4B"
     """ Backbone of the reward model"""
 
     max_length : int = 2300