Logo AND Algorithmique Numérique Distribuée

Public GIT Repository
Fix issue when a host failed while executing a task (the glass is only half full...
[simgrid.git] / src / msg / msg_gos.c
index 8e6d1d1..957fcb8 100644 (file)
@@ -23,6 +23,7 @@ XBT_LOG_NEW_DEFAULT_SUBCATEGORY(msg_gos, msg,
  */
 MSG_error_t MSG_task_execute(m_task_t task)
 {
+  xbt_ex_t e;
   simdata_task_t simdata = NULL;
   simdata_process_t p_simdata;
   e_smx_state_t comp_state;
@@ -53,21 +54,22 @@ MSG_error_t MSG_task_execute(m_task_t task)
   p_simdata = SIMIX_process_self_get_data(self);
   simdata->isused=1;
   simdata->compute =
-      simcall_host_execute(task->name, p_simdata->m_host->simdata->smx_host,
+      simcall_host_execute(task->name, p_simdata->m_host->smx_host,
                            simdata->computation_amount,
                            simdata->priority);
 #ifdef HAVE_TRACING
   simcall_set_category(simdata->compute, task->category);
 #endif
-
+  
   p_simdata->waiting_action = simdata->compute;
-  comp_state = simcall_host_execution_wait(simdata->compute);
-  p_simdata->waiting_action = NULL;
+  TRY {
+    comp_state = simcall_host_execution_wait(simdata->compute);
+    p_simdata->waiting_action = NULL;
 
-  simdata->isused=0;
+    simdata->isused=0;
+
+    XBT_DEBUG("Execution task '%s' finished in state %d", task->name, (int)comp_state);
 
-  XBT_DEBUG("Execution task '%s' finished in state %d", task->name, (int)comp_state);
-  if (comp_state == SIMIX_DONE) {
     /* action ended, set comm and compute = NULL, the actions is already destroyed in the main function */
     simdata->computation_amount = 0.0;
     simdata->comm = NULL;
@@ -76,22 +78,28 @@ MSG_error_t MSG_task_execute(m_task_t task)
     TRACE_msg_task_execute_end(task);
 #endif
     MSG_RETURN(MSG_OK);
-  } else if (simcall_host_get_state(SIMIX_host_self()) == 0) {
-    /* action ended, set comm and compute = NULL, the actions is already destroyed in the main function */
-    simdata->comm = NULL;
-    simdata->compute = NULL;
-#ifdef HAVE_TRACING
-    TRACE_msg_task_execute_end(task);
-#endif
-    MSG_RETURN(MSG_HOST_FAILURE);
-  } else {
-    /* action ended, set comm and compute = NULL, the actions is already destroyed in the main function */
-    simdata->comm = NULL;
-    simdata->compute = NULL;
-#ifdef HAVE_TRACING
-    TRACE_msg_task_execute_end(task);
-#endif
-    MSG_RETURN(MSG_TASK_CANCELED);
+  }  
+  CATCH(e) {
+    switch (e.category) {
+      case host_error:
+        /* action ended, set comm and compute = NULL, the actions is already  destroyed in the main function */
+        simdata->comm = NULL;
+        simdata->compute = NULL;
+        #ifdef HAVE_TRACING
+          TRACE_msg_task_execute_end(task);
+        #endif
+        MSG_RETURN(MSG_HOST_FAILURE);
+        break;  
+      case cancel_error:
+        /* action ended, set comm and compute = NULL, the actions is already destroyed in the main function */
+        simdata->comm = NULL;
+        simdata->compute = NULL;
+    #ifdef HAVE_TRACING
+        TRACE_msg_task_execute_end(task);
+    #endif
+        MSG_RETURN(MSG_TASK_CANCELED);        
+      break;
+    }
   }
 }
 
@@ -146,7 +154,7 @@ MSG_parallel_task_create(const char *name, int host_nb,
   simdata->comm_amount = communication_amount;
 
   for (i = 0; i < host_nb; i++)
-    simdata->host_list[i] = host_list[i]->simdata->smx_host;
+    simdata->host_list[i] = host_list[i]->smx_host;
 
   return task;
 }
@@ -175,7 +183,7 @@ MSG_error_t MSG_parallel_task_execute(m_task_t task)
   xbt_assert(simdata->host_nb,
               "This is not a parallel task. Go to hell.");
 
-  XBT_DEBUG("Parallel computing on %s", p_simdata->m_host->name);
+  XBT_DEBUG("Parallel computing on %s", SIMIX_host_get_name(p_simdata->m_host->smx_host));
 
   simdata->isused=1;
 
@@ -383,12 +391,15 @@ msg_comm_t MSG_task_isend(m_task_t task, const char *alias)
  *
  * \param task a #m_task_t to send on another location.
  * \param alias name of the mailbox to sent the task to
- * \param match_fun boolean function taking the match_data provided by sender (here), and the one of the receiver (if any) and returning whether they match
+ * \param match_fun boolean function which parameters are:
+ *        - match_data_provided_here
+ *        - match_data_provided_by_other_side_if_any
+ *        - the_smx_action_describing_the_other_side
  * \param match_data user provided data passed to match_fun
  * \return the msg_comm_t communication created
  */
 XBT_INLINE msg_comm_t MSG_task_isend_with_matching(m_task_t task, const char *alias,
-    int (*match_fun)(void*,void*),
+    int (*match_fun)(void*,void*, smx_action_t),
     void *match_data)
 {
   simdata_task_t t_simdata = NULL;
@@ -470,8 +481,8 @@ void MSG_task_dsend(m_task_t task, const char *alias, void_f_pvoid_t cleanup)
  *
  * This is a non blocking function: use MSG_comm_wait() or MSG_comm_test()
  * to end the communication.
- *
- * \param task a memory location for storing a #m_task_t.
+ * 
+ * \param task a memory location for storing a #m_task_t. has to be valid until the end of the communication.
  * \param name of the mailbox to receive the task on
  * \return the msg_comm_t communication created
  */
@@ -622,7 +633,8 @@ void MSG_comm_destroy(msg_comm_t comm)
  *
  * It takes two parameters.
  * \param comm the communication to wait.
- * \param timeout Wait until the communication terminates or the timeout occurs
+ * \param timeout Wait until the communication terminates or the timeout 
+ * occurs. You can provide a -1 timeout to obtain an infinite timeout.
  * \return MSG_error_t
  */
 MSG_error_t MSG_comm_wait(msg_comm_t comm, double timeout)
@@ -1030,7 +1042,7 @@ MSG_task_put_with_timeout(m_task_t task, m_host_t dest,
               && (channel < msg_global->max_channel), "Invalid channel %d",
               channel);
 
-  XBT_DEBUG("MSG_task_put_with_timout: Trying to send a task to '%s'", dest->name);
+  XBT_DEBUG("MSG_task_put_with_timout: Trying to send a task to '%s'", SIMIX_host_get_name(dest->smx_host));
   return
       MSG_mailbox_put_with_timeout(MSG_mailbox_get_by_channel
                                    (dest, channel), task, timeout);