Logo AND Algorithmique Numérique Distribuée

Public GIT Repository
Detect and diagnose a possible user error
[simgrid.git] / src / msg / msg_gos.cpp
index 63703d7..0abc0ce 100644 (file)
@@ -11,8 +11,7 @@
 #include "xbt/log.h"
 #include "xbt/sysdep.h"
 
-XBT_LOG_NEW_DEFAULT_SUBCATEGORY(msg_gos, msg,
-                                "Logging specific to MSG (gos)");
+XBT_LOG_NEW_DEFAULT_SUBCATEGORY(msg_gos, msg, "Logging specific to MSG (gos)");
 
 /** \ingroup msg_task_usage
  * \brief Executes a task and waits for its termination.
@@ -30,7 +29,6 @@ msg_error_t MSG_task_execute(msg_task_t task)
   msg_error_t ret = MSG_parallel_task_execute(task);
 
   MSG_host_del_task(host, task);
-
   return ret;
 }
 
@@ -43,20 +41,24 @@ msg_error_t MSG_task_execute(msg_task_t task)
  * or #MSG_HOST_FAILURE otherwise
  */
 msg_error_t MSG_parallel_task_execute(msg_task_t task)
+{
+  return MSG_parallel_task_execute_with_timeout(task, -1);
+}
+
+msg_error_t MSG_parallel_task_execute_with_timeout(msg_task_t task, double timeout)
 {
   simdata_task_t simdata = task->simdata;
-  simdata_process_t p_simdata = (simdata_process_t) SIMIX_process_self_get_data();
+  simdata_process_t p_simdata = static_cast<simdata_process_t>(SIMIX_process_self_get_data());
   e_smx_state_t comp_state;
   msg_error_t status = MSG_OK;
 
   TRACE_msg_task_execute_start(task);
 
-  xbt_assert((!simdata->compute) && !task->simdata->isused,
-             "This task is executed somewhere else. Go fix your code!");
+  xbt_assert((!simdata->compute) && !task->simdata->isused, "This task is executed somewhere else. Go fix your code!");
 
   XBT_DEBUG("Computing on %s", MSG_process_get_name(MSG_process_self()));
 
-  if (simdata->flops_amount == 0 && !simdata->host_nb) {
+  if (simdata->flops_amount <= 0.0 && !simdata->host_nb) {
     TRACE_msg_task_execute_end(task);
     return MSG_OK;
   }
@@ -65,21 +67,13 @@ msg_error_t MSG_parallel_task_execute(msg_task_t task)
     simdata->setUsed();
 
     if (simdata->host_nb > 0) {
-      simdata->compute = static_cast<simgrid::kernel::activity::Exec*>(
-          simcall_execution_parallel_start(task->name, simdata->host_nb,simdata->host_list,
-                                                       simdata->flops_parallel_amount, simdata->bytes_parallel_amount,
-                                                       1.0, -1.0));
+      simdata->compute = static_cast<simgrid::kernel::activity::Exec*>(simcall_execution_parallel_start(
+          task->name, simdata->host_nb, simdata->host_list, simdata->flops_parallel_amount,
+          simdata->bytes_parallel_amount, 1.0, -1.0, timeout));
       XBT_DEBUG("Parallel execution action created: %p", simdata->compute);
     } else {
-      unsigned long affinity_mask =
-         (unsigned long)(uintptr_t) xbt_dict_get_or_null_ext(simdata->affinity_mask_db, (char *) p_simdata->m_host,
-                                                             sizeof(msg_host_t));
-      XBT_DEBUG("execute %s@%s with affinity(0x%04lx)",
-                MSG_task_get_name(task), MSG_host_get_name(p_simdata->m_host), affinity_mask);
-
-          simdata->compute = static_cast<simgrid::kernel::activity::Exec*>(
-              simcall_execution_start(task->name, simdata->flops_amount, simdata->priority,
-                                                 simdata->bound, affinity_mask));
+      simdata->compute = static_cast<simgrid::kernel::activity::Exec*>(
+          simcall_execution_start(task->name, simdata->flops_amount, simdata->priority, simdata->bound));
     }
     simcall_set_category(simdata->compute, task->category);
     p_simdata->waiting_action = simdata->compute;
@@ -98,6 +92,9 @@ msg_error_t MSG_parallel_task_execute(msg_task_t task)
     case host_error:
       status = MSG_HOST_FAILURE;
       break;
+    case timeout_error:
+      status = MSG_TIMEOUT;
+      break;
     default:
       throw;
     }
@@ -109,7 +106,7 @@ msg_error_t MSG_parallel_task_execute(msg_task_t task)
   simdata->compute = nullptr;
   TRACE_msg_task_execute_end(task);
 
-  MSG_RETURN(status);
+  return status;
 }
 
 /** \ingroup msg_task_usage
@@ -122,7 +119,6 @@ msg_error_t MSG_parallel_task_execute(msg_task_t task)
 msg_error_t MSG_process_sleep(double nb_sec)
 {
   msg_error_t status = MSG_OK;
-  /*msg_process_t proc = MSG_process_self();*/
 
   TRACE_msg_process_sleep_in(MSG_process_self());
 
@@ -132,7 +128,7 @@ msg_error_t MSG_process_sleep(double nb_sec)
   catch(xbt_ex& e) {
     switch (e.category) {
     case cancel_error:
-      XBT_DEBUG("According to the JAVA API, a sleep call should only deal with HostFailureException, WTF here ?"); 
+      XBT_DEBUG("According to the JAVA API, a sleep call should only deal with HostFailureException, I'm lost."); 
       // adsein: MSG_TASK_CANCELED is assigned when someone kills the process that made the sleep, this is not
       // correct. For instance, when the node is turned off, the error should be MSG_HOST_FAILURE, which is by the way
       // and according to the JAVA document, the only exception that can be triggered by MSG_Process_sleep call.
@@ -147,7 +143,7 @@ msg_error_t MSG_process_sleep(double nb_sec)
   }
 
   TRACE_msg_process_sleep_out(MSG_process_self());
-  MSG_RETURN(status);
+  return status;
 }
 
 /** \ingroup msg_task_usage
@@ -239,21 +235,8 @@ msg_error_t MSG_task_receive_with_timeout_bounded(msg_task_t * task, const char
  */
 msg_error_t MSG_task_receive_ext(msg_task_t * task, const char *alias, double timeout, msg_host_t host)
 {
-  msg_error_t ret = MSG_OK;
   XBT_DEBUG("MSG_task_receive_ext: Trying to receive a message on mailbox '%s'", alias);
-  try {
-    ret = MSG_mailbox_get_task_ext_bounded(simgrid::s4u::Mailbox::byName(alias), task, host, timeout, -1.0);
-  }
-  catch(xbt_ex& e) {
-    switch (e.category) {
-    case cancel_error:          /* may be thrown by MSG_mailbox_get_by_alias */
-      ret = MSG_HOST_FAILURE;
-      break;
-    default:
-      throw;
-    }
-  }
-  return ret;
+  return MSG_task_receive_ext_bounded(task, alias, timeout, host, -1.0);
 }
 
 /** \ingroup msg_task_usage
@@ -267,35 +250,76 @@ msg_error_t MSG_task_receive_ext(msg_task_t * task, const char *alias, double ti
  *
  * \return Returns
  * #MSG_OK if the task was successfully received,
-* #MSG_HOST_FAILURE, or #MSG_TRANSFER_FAILURE, or #MSG_TIMEOUT otherwise.
+ * #MSG_HOST_FAILURE, or #MSG_TRANSFER_FAILURE, or #MSG_TIMEOUT otherwise.
  */
 msg_error_t MSG_task_receive_ext_bounded(msg_task_t * task, const char *alias, double timeout, msg_host_t host,
                                          double rate)
 {
   XBT_DEBUG("MSG_task_receive_ext: Trying to receive a message on mailbox '%s'", alias);
-  return MSG_mailbox_get_task_ext_bounded(simgrid::s4u::Mailbox::byName(alias), task, host, timeout, rate);
+  simgrid::s4u::MailboxPtr mailbox = simgrid::s4u::Mailbox::byName(alias);
+  msg_error_t ret = MSG_OK;
+  /* We no longer support getting a task from a specific host */
+  if (host)
+    THROW_UNIMPLEMENTED;
+
+  TRACE_msg_task_get_start();
+  double start_time = MSG_get_clock();
+
+  /* Sanity check */
+  xbt_assert(task, "Null pointer for the task storage");
+
+  if (*task)
+    XBT_WARN("Asked to write the received task in a non empty struct -- proceeding.");
+
+  /* Try to receive it by calling SIMIX network layer */
+  try {
+    simcall_comm_recv(MSG_process_self(), mailbox->getImpl(), task, nullptr, nullptr, nullptr, nullptr, timeout, rate);
+    XBT_DEBUG("Got task %s from %s",(*task)->name,mailbox->name());
+    (*task)->simdata->setNotUsed();
+  }
+  catch (xbt_ex& e) {
+    switch (e.category) {
+    case host_error:
+    case cancel_error:
+      ret = MSG_HOST_FAILURE;
+      break;
+    case network_error:
+      ret = MSG_TRANSFER_FAILURE;
+      break;
+    case timeout_error:
+      ret = MSG_TIMEOUT;
+      break;
+    default:
+      throw;
+    }
+  }
+
+  if (ret != MSG_HOST_FAILURE && ret != MSG_TRANSFER_FAILURE && ret != MSG_TIMEOUT) {
+    TRACE_msg_task_get_end(start_time, *task);
+  }
+  return ret;
 }
 
 /* Internal function used to factorize code between MSG_task_isend_with_matching() and MSG_task_dsend(). */
 static inline msg_comm_t MSG_task_isend_internal(msg_task_t task, const char *alias,
-                                                     int (*match_fun)(void*,void*, smx_synchro_t),
+                                                     int (*match_fun)(void*,void*, smx_activity_t),
                                                      void *match_data, void_f_pvoid_t cleanup, int detached)
 {
   simdata_task_t t_simdata = nullptr;
   msg_process_t myself = SIMIX_process_self();
-  msg_mailbox_t mailbox = simgrid::s4u::Mailbox::byName(alias);
+  simgrid::s4u::MailboxPtr mailbox = simgrid::s4u::Mailbox::byName(alias);
   int call_end = TRACE_msg_task_put_start(task);
 
   /* Prepare the task to send */
   t_simdata = task->simdata;
   t_simdata->sender = myself;
-  t_simdata->source = ((simdata_process_t) SIMIX_process_self_get_data())->m_host;
+  t_simdata->source = (static_cast<simdata_process_t>(SIMIX_process_self_get_data()))->m_host;
   t_simdata->setUsed();
   t_simdata->comm = nullptr;
   msg_global->sent_msg++;
 
   /* Send it by calling SIMIX network layer */
-  smx_synchro_t act = simcall_comm_isend(myself, mailbox->getImpl(), t_simdata->bytes_amount, t_simdata->rate,
+  smx_activity_t act = simcall_comm_isend(myself, mailbox->getImpl(), t_simdata->bytes_amount, t_simdata->rate,
                                          task, sizeof(void *), match_fun, cleanup, nullptr, match_data,detached);
   t_simdata->comm = static_cast<simgrid::kernel::activity::Comm*>(act);
 
@@ -362,7 +386,7 @@ msg_comm_t MSG_task_isend_bounded(msg_task_t task, const char *alias, double max
  * \return the msg_comm_t communication created
  */
 msg_comm_t MSG_task_isend_with_matching(msg_task_t task, const char *alias,
-                                        int (*match_fun)(void*, void*, smx_synchro_t), void *match_data)
+                                        int (*match_fun)(void*, void*, smx_activity_t), void *match_data)
 {
   return MSG_task_isend_internal(task, alias, match_fun, match_data, nullptr, 0);
 }
@@ -435,7 +459,7 @@ msg_comm_t MSG_task_irecv(msg_task_t *task, const char *name)
  */
 msg_comm_t MSG_task_irecv_bounded(msg_task_t *task, const char *name, double rate)
 {
-  msg_mailbox_t mbox = simgrid::s4u::Mailbox::byName(name);
+  simgrid::s4u::MailboxPtr mbox = simgrid::s4u::Mailbox::byName(name);
 
   /* FIXME: these functions are not traceable */
   /* Sanity check */
@@ -503,7 +527,7 @@ int MSG_comm_testany(xbt_dynar_t comms)
   int finished_index = -1;
 
   /* Create the equivalent array with SIMIX objects: */
-  std::vector<simgrid::kernel::activity::Synchro*> s_comms;
+  std::vector<simgrid::kernel::activity::ActivityImpl*> s_comms;
   s_comms.reserve(xbt_dynar_length(comms));
   msg_comm_t comm;
   unsigned int cursor;
@@ -550,6 +574,14 @@ int MSG_comm_testany(xbt_dynar_t comms)
  */
 void MSG_comm_destroy(msg_comm_t comm)
 {
+  /* Diagnose a possible user error: destroying a comm that is not done yet, and not detached either  */
+  if ((comm->s_comm->state == SIMIX_READY || comm->s_comm->state == SIMIX_RUNNING)
+      && (!static_cast<simgrid::kernel::activity::Comm*>(comm->s_comm)->detached))
+    XBT_WARN("You are destroying a communication that is not done yet but %s. "
+             "This will lead to issues when the other side continues this communication. "
+             "Are you looking for MSG_task_dsend()?",
+             (comm->s_comm->state == SIMIX_READY ? "ready" : "running"));
+
   xbt_free(comm);
 }
 
@@ -616,7 +648,7 @@ int MSG_comm_waitany(xbt_dynar_t comms)
   int finished_index = -1;
 
   /* create the equivalent dynar with SIMIX objects */
-  xbt_dynar_t s_comms = xbt_dynar_new(sizeof(smx_synchro_t), nullptr);
+  xbt_dynar_t s_comms = xbt_dynar_new(sizeof(smx_activity_t), nullptr);
   msg_comm_t comm;
   unsigned int cursor;
   xbt_dynar_foreach(comms, cursor, comm) {
@@ -688,7 +720,7 @@ msg_task_t MSG_comm_get_task(msg_comm_t comm)
  * \param buff the data copied
  * \param buff_size size of the buffer
  */
-void MSG_comm_copy_data_from_SIMIX(smx_synchro_t synchro, void* buff, size_t buff_size)
+void MSG_comm_copy_data_from_SIMIX(smx_activity_t synchro, void* buff, size_t buff_size)
 {
   simgrid::kernel::activity::Comm *comm = static_cast<simgrid::kernel::activity::Comm*>(synchro);
 
@@ -696,7 +728,7 @@ void MSG_comm_copy_data_from_SIMIX(smx_synchro_t synchro, void* buff, size_t buf
 
   // notify the user callback if any
   if (msg_global->task_copy_callback) {
-    msg_task_t task = (msg_task_t) buff;
+    msg_task_t task = static_cast<msg_task_t>(buff);
     msg_global->task_copy_callback(task, comm->src_proc, comm->dst_proc);
   }
 }
@@ -756,15 +788,15 @@ msg_error_t MSG_task_send_with_timeout(msg_task_t task, const char *alias, doubl
   msg_error_t ret = MSG_OK;
   simdata_task_t t_simdata = nullptr;
   msg_process_t process = MSG_process_self();
-  simdata_process_t p_simdata = (simdata_process_t) SIMIX_process_self_get_data();
-  msg_mailbox_t mailbox = simgrid::s4u::Mailbox::byName(alias);
+  simdata_process_t p_simdata = static_cast<simdata_process_t>(SIMIX_process_self_get_data());
+  simgrid::s4u::MailboxPtr mailbox = simgrid::s4u::Mailbox::byName(alias);
 
   int call_end = TRACE_msg_task_put_start(task);    //must be after CHECK_HOST()
 
   /* Prepare the task to send */
   t_simdata = task->simdata;
   t_simdata->sender = process;
-  t_simdata->source = ((simdata_process_t) SIMIX_process_self_get_data())->m_host;
+  t_simdata->source = (static_cast<simdata_process_t>(SIMIX_process_self_get_data()))   ->m_host;
 
   t_simdata->setUsed();
 
@@ -775,7 +807,7 @@ msg_error_t MSG_task_send_with_timeout(msg_task_t task, const char *alias, doubl
 
   /* Try to send it by calling SIMIX network layer */
   try {
-    smx_synchro_t comm = nullptr; /* MC needs the comm to be set to nullptr during the simix call  */
+    smx_activity_t comm = nullptr; /* MC needs the comm to be set to nullptr during the simix call  */
     comm = simcall_comm_isend(SIMIX_process_self(), mailbox->getImpl(),t_simdata->bytes_amount,
                               t_simdata->rate, task, sizeof(void *), nullptr, nullptr, nullptr, task, 0);
     if (TRACE_is_enabled())
@@ -805,7 +837,7 @@ msg_error_t MSG_task_send_with_timeout(msg_task_t task, const char *alias, doubl
   p_simdata->waiting_task = nullptr;
   if (call_end)
     TRACE_msg_task_put_end();
-  MSG_RETURN(ret);
+  return ret;
 }
 
 /** \ingroup msg_task_usage
@@ -836,7 +868,7 @@ msg_error_t MSG_task_send_with_timeout_bounded(msg_task_t task, const char *alia
  */
 int MSG_task_listen(const char *alias)
 {
-  msg_mailbox_t mbox = simgrid::s4u::Mailbox::byName(alias);
+  simgrid::s4u::MailboxPtr mbox = simgrid::s4u::Mailbox::byName(alias);
   return !mbox->empty() ||
     (mbox->getImpl()->permanent_receiver && !mbox->getImpl()->done_comm_queue.empty());
 }
@@ -851,7 +883,7 @@ int MSG_task_listen(const char *alias)
  */
 int MSG_task_listen_from(const char *alias)
 {
-  msg_mailbox_t mbox = simgrid::s4u::Mailbox::byName(alias);
+  simgrid::s4u::MailboxPtr mbox = simgrid::s4u::Mailbox::byName(alias);
   simgrid::kernel::activity::Comm* comm = static_cast<simgrid::kernel::activity::Comm*>(mbox->front());
 
   if (!comm)
@@ -904,7 +936,7 @@ const char *MSG_task_get_category (msg_task_t task)
  */
 const char *MSG_as_router_get_property_value(const char* asr, const char *name)
 {
-  return (char*) xbt_dict_get_or_null(MSG_as_router_get_properties(asr), name);
+  return static_cast<char*>(xbt_dict_get_or_null(MSG_as_router_get_properties(asr), name));
 }
 
 /**
@@ -925,8 +957,8 @@ xbt_dict_t MSG_as_router_get_properties(const char* asr)
  * \param asr the name of a router or AS
  * \param name a property name
  * \param value what to change the property to
- * \param free_ctn the freeing function to use to kill the value on need
  */
-void MSG_as_router_set_property_value(const char* asr, const char *name, char *value,void_f_pvoid_t free_ctn) {
-  xbt_dict_set(MSG_as_router_get_properties(asr), name, value,free_ctn);
+void MSG_as_router_set_property_value(const char* asr, const char* name, char* value)
+{
+  xbt_dict_set(MSG_as_router_get_properties(asr), name, value, nullptr);
 }