filrg · nnkhanhduy · Mar 13, 2026 · Mar 16, 2026 · Mar 21, 2026
diff --git a/other/DCSL/src/RpcClient.py b/other/DCSL/src/RpcClient.py
@@ -11,6 +11,8 @@
 import src.Log
 from src.model import *
 
+from peft import LoraConfig, get_peft_model
+
 
 class RpcClient:
     def __init__(self, client_id, layer_id, channel, train_func, device):
@@ -23,6 +25,7 @@ def __init__(self, client_id, layer_id, channel, train_func, device):
         self.response = None
         self.model = None
         self.label_count = None
+        self.peft_config = None
 
         self.train_set = None
         self.label_to_indices = None
@@ -75,13 +78,41 @@ def response_message(self, body):
                     ])
                     self.train_set = torchvision.datasets.CIFAR10(root='./data', train=True, download=True,
                                                                   transform=transform_train)
+                elif data_name == "SPEECHCOMMANDS":
+                    from src.dataset.SPEECHCOMMANDS import SpeechCommandsDataset
+                    self.train_set = SpeechCommandsDataset(root='./data', subset='training')
+                elif data_name == "AGNEWS":
+                    from datasets import load_dataset
+                    from transformers import BertTokenizer
+                    from src.dataset.AGNEWS import AGNEWS_DATASET
+
+                    dataset = load_dataset('ag_news', download_mode='reuse_dataset_if_exists', cache_dir='./hf_cache')
+                    tokenizer = BertTokenizer.from_pretrained('bert-base-cased')
+
+                    train_data = dataset['train']
+                    texts = train_data['text']
+                    labels = train_data['label']
+
+                    self.train_set = AGNEWS_DATASET(texts, labels, tokenizer, max_length=128)
                 else:
                     self.train_set = None
                     raise ValueError(f"Data name '{data_name}' is not valid.")
 
                 self.label_to_indices = defaultdict(list)
-                for idx, (_, label) in tqdm(enumerate(self.train_set)):
-                    self.label_to_indices[int(label)].append(idx)
+                if data_name == "AGNEWS":
+                    for idx, label in enumerate(self.train_set.labels):
+                        self.label_to_indices[int(label)].append(idx)
+                elif data_name == "SPEECHCOMMANDS":
+                    from src.dataset.SPEECHCOMMANDS import CLASSES
+                    for idx, (audio_path, label_name) in enumerate(self.train_set.samples):
+                        if label_name in CLASSES:
+                            label_idx = CLASSES.index(label_name)
+                        else:
+                            label_idx = CLASSES.index('unknown')
+                        self.label_to_indices[label_idx].append(idx)
+                else:
+                    for idx, (_, label) in tqdm(enumerate(self.train_set)):
+                        self.label_to_indices[int(label)].append(idx)
 
             # Load model
             if self.model is None:
@@ -99,11 +130,28 @@ def response_message(self, body):
             lr = self.response["lr"]
             momentum = self.response["momentum"]
             sda_size = self.response.get("sda_size", 1)
+            layer2_devices = self.response.get("layer2_devices", [])
 
             # Read parameters and load to model
             if state_dict:
                 self.model.load_state_dict(state_dict)
 
+            # Apply LoRA for BERT model
+            if model_name == 'BERT':
+                if self.peft_config is None:
+                    self.peft_config = LoraConfig(
+                        task_type="SEQ_CLS",
+                        r=8, lora_alpha=16, lora_dropout=0.1,
+                        bias="none",
+                        target_modules=["query", "key", "value", "dense"]
+                    )
+                self.model = get_peft_model(self.model, self.peft_config)
+                if self.layer_id == 2:
+                    for param in self.model.layer15.parameters():
+                        param.requires_grad = True
+
+            self.model.to(self.device)
+
             # Start training
             if self.layer_id == 1:
                 selected_indices = []
@@ -113,10 +161,14 @@ def response_message(self, body):
                 subset = torch.utils.data.Subset(self.train_set, selected_indices)
                 train_loader = torch.utils.data.DataLoader(subset, batch_size=batch_size, shuffle=True)
 
-                result, size = self.train_func(self.model, lr, momentum, train_loader, local_round=local_round)
+                result, size = self.train_func(self.model, lr, momentum, train_loader, local_round=local_round, layer2_devices=layer2_devices, model_name=model_name)
 
             else:
-                result, size = self.train_func(self.model, lr, momentum, None, local_round=local_round, sda_size=sda_size)
+                result, size = self.train_func(self.model, lr, momentum, None, local_round=local_round, sda_size=sda_size, model_name=model_name)
+
+            # Merge LoRA weights back for BERT
+            if model_name == 'BERT':
+                self.model = self.model.merge_and_unload()
 
             # Stop training, then send parameters to server
             model_state_dict = copy.deepcopy(self.model.state_dict())

diff --git a/other/DCSL/src/Scheduler.py b/other/DCSL/src/Scheduler.py
@@ -18,9 +18,12 @@ def __init__(self, client_id, layer_id, channel, device):
         self.device = device
         self.data_count = 0
 
-    def send_intermediate_output(self, output, labels, trace, data_id=None):
+    def send_intermediate_output(self, output, labels, trace, data_id=None, target_device_id=None):
 
-        forward_queue_name = f'intermediate_queue_{self.layer_id}'
+        if target_device_id is not None:
+            forward_queue_name = f'intermediate_queue_{target_device_id}'
+        else:
+            forward_queue_name = f'intermediate_queue_{self.layer_id}'
 
         self.channel.queue_declare(forward_queue_name, durable=False)
 
@@ -63,49 +66,67 @@ def send_to_server(self, message):
                                    routing_key='rpc_queue',
                                    body=pickle.dumps(message))
 
-    def train_on_first_layer(self, model, lr, momentum, train_loader=None, local_round=3):
-        """
-        Synchronous training: forward 1 batch → wait for gradient → backward → next batch.
-        Edge device does NOT send multiple batches before receiving gradient.
-        """
-        optimizer = optim.SGD(model.parameters(), lr=lr, momentum=momentum)
+    def train_on_first_layer(self, model, lr, momentum, train_loader=None, local_round=3, layer2_devices=None, model_name=None):
+        if model_name == 'BERT':
+            optimizer = optim.AdamW(model.parameters(), lr=lr, weight_decay=0.01)
+        else:
+            optimizer = optim.SGD(model.parameters(), lr=lr, momentum=momentum)
 
         backward_queue_name = f'gradient_queue_{self.layer_id}_{self.client_id}'
         self.channel.queue_declare(queue=backward_queue_name, durable=False)
         self.channel.basic_qos(prefetch_count=1)
 
         model.to(self.device)
 
+        batch_counter = 0
+
         for i in range(local_round):
             src.Log.print_with_color(f'Epoch {i}', 'green')
 
             with tqdm(total=len(train_loader), desc="Processing", unit="step") as pbar:
-                for training_data, labels in train_loader:
-                    training_data = training_data.to(self.device)
+                for batch in train_loader:
+                    if isinstance(batch, dict) and 'input_ids' in batch:
+                        training_data = batch['input_ids'].to(self.device)
+                        attention_mask = batch['attention_mask'].to(self.device)
+                        labels = batch['labels'].to(self.device)
+                        kwargs = {'input_ids': training_data, 'attention_mask': attention_mask}
+                    else:
+                        training_data, labels = batch
+                        training_data = training_data.to(self.device)
+                        labels = labels.to(self.device)
+                        kwargs = {}
 
-                    # Step 1: Forward
                     data_id = str(uuid.uuid4())
-                    intermediate_output = model(training_data)
+                    with torch.no_grad():
+                        if 'input_ids' in kwargs:
+                            intermediate_output = model(**kwargs)
+                        else:
+                            intermediate_output = model(training_data, **kwargs)
                     intermediate_output = intermediate_output.detach().requires_grad_(True)
 
                     self.data_count += 1
                     pbar.update(1)
 
-                    # Step 2: Send smashed data to server
-                    self.send_intermediate_output(intermediate_output, labels, trace=None, data_id=data_id)
+                    target_device_id = None
+                    if layer2_devices:
+                        target_device_id = layer2_devices[batch_counter % len(layer2_devices)]
+                        batch_counter += 1
+
+                    self.send_intermediate_output(intermediate_output, labels, trace=None, data_id=data_id, target_device_id=target_device_id)
 
-                    # Step 3: Wait for gradient (blocking)
                     while True:
                         method_frame, header_frame, body = self.channel.basic_get(
                             queue=backward_queue_name, auto_ack=True)
                         if method_frame and body:
                             received_data = pickle.loads(body)
                             gradient = torch.tensor(received_data["data"]).to(self.device)
 
-                            # Step 4: Backward
                             model.train()
                             optimizer.zero_grad()
-                            output = model(training_data)
+                            if 'input_ids' in kwargs:
+                                output = model(**kwargs)
+                            else:
+                                output = model(training_data, **kwargs)
                             output.backward(gradient=gradient)
                             optimizer.step()
                             break
@@ -128,17 +149,11 @@ def train_on_first_layer(self, model, lr, momentum, train_loader=None, local_rou
                     return True
             time.sleep(0.5)
 
-    def _process_sda_batch(self, model, optimizer, criterion, collected):
-        """
-        SDA (Smashed Data Aggregation) — Eq. 4-5 from paper.
-        Concatenate smashed data from all clients, forward once,
-        split gradient back to each client.
-        """
+    def _process_sda_batch(self, model, optimizer, criterion, collected, model_name=None):
         batch_sizes = [item["data"].shape[0] for item in collected]
         traces = [item["trace"] for item in collected]
         data_ids = [item["data_id"] for item in collected]
 
-        # Eq. 4: S_c = concat(σ_1, σ_2, ..., σ_|D_c|)
         all_data = np.concatenate([item["data"] for item in collected], axis=0)
         all_labels = np.concatenate([item["label"] for item in collected], axis=0)
 
@@ -149,8 +164,10 @@ def _process_sda_batch(self, model, optimizer, criterion, collected):
         optimizer.zero_grad()
         concat_intermediate.retain_grad()
 
-        # Eq. 5: ŷ = f(S_c | W)
-        output = model(concat_intermediate)
+        if model_name == 'BERT':
+            output = model(input_ids=concat_intermediate)
+        else:
+            output = model(concat_intermediate)
         loss = criterion(output, concat_labels.long())
         print(f"Loss (SDA, {len(collected)} clients, {sum(batch_sizes)} samples): {loss.item():.4f}")
 
@@ -173,20 +190,18 @@ def _process_sda_batch(self, model, optimizer, criterion, collected):
 
         return result
 
-    def train_on_last_layer(self, model, lr, momentum, sda_size=1):
-        """
-        SDA: collect exactly 1 batch from each client,
-        concat and forward once, split gradient back.
-        Since edge devices are synchronous, no overflow needed.
-        """
-        optimizer = optim.SGD(model.parameters(), lr=lr, momentum=momentum)
+    def train_on_last_layer(self, model, lr, momentum, sda_size=1, model_name=None):
+        if model_name == 'BERT':
+            optimizer = optim.AdamW(model.parameters(), lr=lr, weight_decay=0.01)
+        else:
+            optimizer = optim.SGD(model.parameters(), lr=lr, momentum=momentum)
         result = True
         criterion = nn.CrossEntropyLoss()
 
-        forward_queue_name = f'intermediate_queue_{self.layer_id - 1}'
+        forward_queue_name = f'intermediate_queue_{self.client_id}'
         self.channel.queue_declare(queue=forward_queue_name, durable=False)
         self.channel.basic_qos(prefetch_count=1)
-        print(f'Waiting for intermediate output (SDA size={sda_size}). To exit press CTRL+C')
+        print(f'Waiting for intermediate output on queue {forward_queue_name} (SDA size={sda_size}). To exit press CTRL+C')
         model.to(self.device)
 
         sda_batch = {}  # {client_id: data} — exactly 1 batch per client
@@ -200,7 +215,7 @@ def train_on_last_layer(self, model, lr, momentum, sda_size=1):
 
                 # When we have 1 batch from each client → SDA forward
                 if len(sda_batch) >= sda_size:
-                    batch_result = self._process_sda_batch(model, optimizer, criterion, list(sda_batch.values()))
+                    batch_result = self._process_sda_batch(model, optimizer, criterion, list(sda_batch.values()), model_name=model_name)
                     if not batch_result:
                         result = False
                     sda_batch = {}
@@ -214,16 +229,16 @@ def train_on_last_layer(self, model, lr, momentum, sda_size=1):
                     if received_data["action"] == "PAUSE":
                         # Process remaining
                         if sda_batch:
-                            batch_result = self._process_sda_batch(model, optimizer, criterion, list(sda_batch.values()))
+                            batch_result = self._process_sda_batch(model, optimizer, criterion, list(sda_batch.values()), model_name=model_name)
                             if not batch_result:
                                 result = False
                         return result
 
-    def train_on_device(self, model, lr, momentum, train_loader=None, local_round=None, sda_size=1):
+    def train_on_device(self, model, lr, momentum, train_loader=None, local_round=None, sda_size=1, layer2_devices=None, model_name=None):
         self.data_count = 0
         if self.layer_id == 1:
-            result = self.train_on_first_layer(model, lr, momentum, train_loader, local_round)
+            result = self.train_on_first_layer(model, lr, momentum, train_loader, local_round, layer2_devices=layer2_devices, model_name=model_name)
         else:
-            result = self.train_on_last_layer(model, lr, momentum, sda_size)
+            result = self.train_on_last_layer(model, lr, momentum, sda_size, model_name=model_name)
 
         return result, self.data_count