Logo AND Algorithmique Numérique Distribuée

Public GIT Repository
Change the waitany functions on semaphore and communications to return the rank of...
[simgrid.git] / src / simix / smx_network.c
index f9ac690..7008ec3 100644 (file)
@@ -9,6 +9,9 @@
 #include "private.h"
 #include "xbt/log.h"
 
+XBT_LOG_NEW_DEFAULT_SUBCATEGORY(simix_network, simix,
+                                "Logging specific to SIMIX (network)");
+
 /******************************************************************************/
 /*                           Rendez-Vous Points                               */
 /******************************************************************************/ 
  */
 smx_rdv_t SIMIX_rdv_create(const char *name)
 {
-  smx_rdv_t rvp = xbt_new0(s_smx_rvpoint_t, 1);
-  rvp->name = name ? xbt_strdup(name) : NULL;
-  rvp->read = SIMIX_mutex_init();
-  rvp->write = SIMIX_mutex_init();
-  rvp->comm_fifo = xbt_fifo_new();
+  smx_rdv_t rdv = xbt_new0(s_smx_rvpoint_t, 1);
+  rdv->name = name ? xbt_strdup(name) : NULL;
+  rdv->read = SIMIX_mutex_init();
+  rdv->write = SIMIX_mutex_init();
+  rdv->comm_fifo = xbt_fifo_new();
 
-  return rvp;
+  return rdv;
 }
 
 /**
  *  \brief Destroy a rendez-vous point
  *  \param name The rendez-vous point to destroy
  */
-void SIMIX_rdv_destroy(smx_rdv_t rvp)
+void SIMIX_rdv_destroy(smx_rdv_t rdv)
 {
-  if(rvp->name)
-    xbt_free(rvp->name);
-  SIMIX_mutex_destroy(rvp->read);
-  SIMIX_mutex_destroy(rvp->write);
-  xbt_fifo_free(rvp->comm_fifo);
-  xbt_free(rvp);
+  if(rdv->name)
+    xbt_free(rdv->name);
+  SIMIX_mutex_destroy(rdv->read);
+  SIMIX_mutex_destroy(rdv->write);
+  xbt_fifo_free(rdv->comm_fifo);
+  xbt_free(rdv);
 }
 
 /**
  *  \brief Push a communication request into a rendez-vous point
- *  The communications request are dequeued by the two functions below
- *  \param rvp The rendez-vous point
+ *  \param rdv The rendez-vous point
  *  \param comm The communication request
  */
-static inline void SIMIX_rdv_push(smx_rdv_t rvp, smx_comm_t comm)
+static inline void SIMIX_rdv_push(smx_rdv_t rdv, smx_comm_t comm)
 {
-  xbt_fifo_push(rvp->comm_fifo, comm);
+  xbt_fifo_push(rdv->comm_fifo, comm);
+  comm->rdv = rdv;
 }
 
+/**
+ *  \brief Remove a communication request from a rendez-vous point
+ *  \param rdv The rendez-vous point
+ *  \param comm The communication request
+ */
+static inline void SIMIX_rdv_remove(smx_rdv_t rdv, smx_comm_t comm)
+{
+  xbt_fifo_remove(rdv->comm_fifo, comm);
+  comm->rdv = NULL;
+}
+  
 /**
  *  \brief Checks if there is a communication request queued in a rendez-vous matching our needs
- *  \param rvp The rendez-vous with the queue
- *  \param look_for_src boolean. True: we are receiver looking for sender; False: other way round
- *  \return The communication request if found, or a newly created one otherwise.
+ *  \param type The type of communication we are looking for (comm_send, comm_recv)
+ *  \return The communication request if found, NULL otherwise.
  */
-smx_comm_t SIMIX_rdv_get_request(smx_rdv_t rvp, int (filter)(smx_comm_t, void*), void *arg) {
-  smx_comm_t comm;
-  xbt_fifo_item_t item;
-
-  /* Traverse the rendez-vous queue looking for a comm request matching the
-     filter conditions. If found return it and remove it from the list. */
-  xbt_fifo_foreach(rvp->comm_fifo, item, comm, smx_comm_t) {
-    if(filter(comm, arg)){
-      SIMIX_communication_use(comm);
-      xbt_fifo_remove_item(rvp->comm_fifo, item);
-      return comm;
-    }
+smx_comm_t SIMIX_rdv_get_request(smx_rdv_t rdv, smx_comm_type_t type)
+{
+  smx_comm_t comm = (smx_comm_t)xbt_fifo_get_item_content(
+                                  xbt_fifo_get_first_item(rdv->comm_fifo));
+
+  if(comm && comm->type == type){
+    DEBUG0("Communication request found!");
+    xbt_fifo_shift(rdv->comm_fifo);
+    SIMIX_communication_use(comm);
+    comm->rdv = NULL;    
+    return comm;
   }
 
   /* no relevant request found. Return NULL */
+  DEBUG0("Communication request not found");
   return NULL;
 }
 
+/**
+ *  \brief counts the number of communication requests of a given host pending
+ *         on a rendez-vous point
+ *  \param rdv The rendez-vous point
+ *  \param host The host to be counted
+ *  \return The number of comm request pending in the rdv
+ */
+int 
+SIMIX_rdv_get_count_waiting_comm(smx_rdv_t rdv, smx_host_t host)
+{
+  smx_comm_t comm = NULL;
+  xbt_fifo_item_t item = NULL;
+  int count = 0;
+
+  xbt_fifo_foreach(rdv->comm_fifo, item, comm, smx_comm_t) {
+    if (comm->src_proc->smx_host == host)
+      count++;
+  }
+
+  return count;
+}
+
+/**
+ *  \brief returns the communication at the head of the rendez-vous
+ *  \param rdv The rendez-vous point
+ *  \return The communication or NULL if empty
+ */
+smx_comm_t SIMIX_rdv_get_head(smx_rdv_t rdv)
+{
+  return (smx_comm_t)xbt_fifo_get_item_content(xbt_fifo_get_first_item(rdv->comm_fifo));
+}
+
+/** @brief adds some API-related data to the rendez-vous point */
+void SIMIX_rdv_set_data(smx_rdv_t rdv,void *data) {
+  rdv->data=data;
+}
+/** @brief gets API-related data from the rendez-vous point */
+void *SIMIX_rdv_get_data(smx_rdv_t rdv) {
+  return rdv->data;
+}
+
 /******************************************************************************/
 /*                           Communication Requests                           */
 /******************************************************************************/ 
 
 /**
  *  \brief Creates a new communication request
- *  \param sender The process starting the communication (by send)
- *  \param receiver The process receiving the communication (by recv)
- *  \return the communication request
+ *  \param type The type of communication (comm_send, comm_recv)
+ *  \return The new communication request
  */  
-smx_comm_t SIMIX_communication_new(smx_comm_type_t type, smx_rdv_t rdv)
+smx_comm_t SIMIX_communication_new(smx_comm_type_t type)
 {
   /* alloc structures */
   smx_comm_t comm = xbt_new0(s_smx_comm_t, 1);
   comm->type = type;
-  comm->cond = SIMIX_cond_init();
-  comm->rdv = rdv;
+  comm->sem = SIMIX_sem_init(0);
   comm->refcount = 1;
   
   return comm;
@@ -107,13 +159,20 @@ smx_comm_t SIMIX_communication_new(smx_comm_type_t type, smx_rdv_t rdv)
 void SIMIX_communication_destroy(smx_comm_t comm)
 {
   comm->refcount--;
-  if(comm->refcount == 0){
-    if(comm->act != NULL)
-      SIMIX_action_destroy(comm->act);
+  if(comm->refcount > 0)
+    return;
 
-    xbt_free(comm->cond);
-    xbt_free(comm);
+  if(comm->sem){
+    SIMIX_sem_destroy(comm->sem);
+    comm->sem = NULL;
+  }
+  
+  if(comm->act){
+    SIMIX_action_destroy(comm->act);
+    comm->act = NULL;
   }
+  
+  xbt_free(comm);
 }
 
 /**
@@ -131,18 +190,31 @@ static inline void SIMIX_communication_use(smx_comm_t comm)
 
 /**
  *  \brief Start the simulation of a communication request
- *  \param comm The communication request
+ *  \param comm The   comm->rdv = NULL;communication request
  */
 static inline void SIMIX_communication_start(smx_comm_t comm)
 {
   /* If both the sender and the receiver are already there, start the communication */
-  if(comm->src_host != NULL && comm->dst_host != NULL){
-    comm->act = SIMIX_action_communicate(comm->src_host, comm->dst_host, NULL, 
+  if(comm->src_proc && comm->dst_proc){
+    DEBUG1("Starting communication %p", comm);
+    comm->act = SIMIX_action_communicate(comm->src_proc->smx_host, 
+                                         comm->dst_proc->smx_host, NULL, 
                                          comm->task_size, comm->rate);
-    /* Add the communication as user data into the action, so it can be reached from it later */
-    comm->act->data = comm;
+
+    /* If any of the process is suspend, create the action but stop its execution,
+       it will be restarted when the sender process resume */
+    if(SIMIX_process_is_suspended(comm->src_proc) || 
+       SIMIX_process_is_suspended(comm->dst_proc)) {
+      SIMIX_action_set_priority(comm->act, 0);
+    }
     
-    SIMIX_register_action_to_condition(comm->act, comm->cond);
+    /* Add the communication as user data of the action */
+    comm->act->data = comm;
+
+    /* The semaphore will only get signaled once, but since the first unlocked guy will
+     * release_forever() the semaphore, that will unlock the second (and any other)
+     * communication partner */
+    SIMIX_register_action_to_semaphore(comm->act, comm->sem);
   }
 }
 
@@ -159,185 +231,254 @@ static inline void SIMIX_communication_start(smx_comm_t comm)
 static inline void SIMIX_communication_wait_for_completion(smx_comm_t comm, double timeout)
 {
   xbt_ex_t e;
+
+  DEBUG1("Waiting for the completion of communication %p", comm);
   
   if(timeout > 0){
     TRY{
-      SIMIX_cond_wait_timeout(comm->cond, NULL, timeout);
+      SIMIX_sem_acquire_timeout(comm->sem, timeout);
     }
     CATCH(e){
-      /* If it's a timeout then cancel the communication and signal the other peer */
-      if(e.category == timeout_error)
-        SIMIX_action_cancel(comm->act);
-        SIMIX_cond_signal(comm->cond);   
+      /* If there is a timeout then cancel the communication if it is running or 
+         remove it from the rendez-vous otherwise. Then signal the other peer,
+         destroy the communication and retrow the exception. */
+      if(e.category == timeout_error){
+        DEBUG1("Communication timeout! %p", comm);
+        if(comm->act && SIMIX_action_get_state(comm->act) == SURF_ACTION_RUNNING)
+          SIMIX_communication_cancel(comm);
+        else
+          SIMIX_rdv_remove(comm->rdv, comm);
+
+        /* Make sure that everyone sleeping on that semaphore is awake, and that nobody will ever block on it */
+        SIMIX_sem_release_forever(comm->sem);
+        SIMIX_communication_destroy(comm);
+      }
       RETHROW;
     }
-  }else{
-    SIMIX_cond_wait(comm->cond, NULL);
+  } else {
+    SIMIX_sem_acquire(comm->sem);
   }
 
-  SIMIX_unregister_action_to_condition(comm->act, comm->cond);
+  DEBUG1("Communication %p complete! Let's check for errors", comm);
+
+  /* Make sure that everyone sleeping on that semaphore is awake, and that nobody will ever block on it */
+  SIMIX_sem_release_forever(comm->sem);
   
-  /* Check for errors */
-  if (SIMIX_host_get_state(comm->dst_host) == 0){
-    THROW1(host_error, 0, "Destination host %s failed", comm->dst_host->name);
-  } else if (SIMIX_host_get_state(comm->src_host) == 0){
-    THROW1(host_error, 0, "Source host %s failed", comm->src_host->name);
+  /* Check for errors other than timeouts (they are catched above) */
+  if(!SIMIX_host_get_state(SIMIX_host_self())){
+    if(comm->rdv)
+      SIMIX_rdv_remove(comm->rdv, comm);
+    SIMIX_communication_destroy(comm);
+    THROW0(host_error, 0, "Host failed");
   } else if (SIMIX_action_get_state(comm->act) == SURF_ACTION_FAILED){
+    SIMIX_communication_destroy(comm);
     THROW0(network_error, 0, "Link failure");
   }
 }
 
 /**
- *  \brief Copy the communication data from the sender's buffer to the receiver's one
- *  \param comm The communication
+ *  \brief Cancels a communication
+ *  \brief comm The communication to cancel
  */
-void SIMIX_network_copy_data(smx_comm_t comm)
+void SIMIX_communication_cancel(smx_comm_t comm)
 {
-  /* Copy the minimum between the size of the sender's message and the size of the
-     receiver's buffer */
-  *comm->dest_buff_size = *comm->dest_buff_size < comm->data_size ? 
-                            *comm->dest_buff_size : comm->data_size;
-
-  memcpy(comm->dest_buff, comm->data, *comm->dest_buff_size);
+  SIMIX_action_cancel(comm->act);
 }
 
 /**
- *  \brief Checks if a communication is a send request
+ *  \brief get the amount remaining from the communication
  *  \param comm The communication
- *  \return Boolean value
  */
-int SIMIX_communication_isSend(smx_comm_t comm)
+double SIMIX_communication_get_remains(smx_comm_t comm)
 {
-  return comm->type == comm_send ? TRUE : FALSE;
-}
+  return SIMIX_action_get_remains(comm->act);
+}  
 
 /**
- *  \brief Checks if a communication is a recv request
+ *  \brief Copy the communication data from the sender's buffer to the receiver's one
  *  \param comm The communication
- *  \return Boolean value
  */
-int SIMIX_communication_isRecv(smx_comm_t comm)
+void SIMIX_network_copy_data(smx_comm_t comm)
 {
-  return comm->type == comm_recv ? TRUE : FALSE;
-}
+  /* If there is no data to be copy then return */
+  if(!comm->src_buff || !comm->dst_buff)
+    return;
+  
+  size_t src_buff_size = comm->src_buff_size;
+  size_t dst_buff_size = *comm->dst_buff_size;
+  
+  /* Copy at most dst_buff_size bytes of the message to receiver's buffer */
+  dst_buff_size = MIN(dst_buff_size, src_buff_size);
+  
+  /* Update the receiver's buffer size to the copied amount */
+  if (comm->dst_buff_size)
+    *comm->dst_buff_size = dst_buff_size;
 
-/* FIXME: move to some other place */
-int comm_filter_get(smx_comm_t comm, void *arg)
-{
-  if(comm->type == comm_send){
-    if(arg && comm->src_host != (smx_host_t)arg)
-     return FALSE;
-    else
-     return TRUE;
-  }else{
-    return FALSE;
-  }
+  if(dst_buff_size == 0)
+    return;
+
+  memcpy(comm->dst_buff, comm->src_buff, dst_buff_size);
+
+  DEBUG4("Copying comm %p data from %s -> %s (%zu bytes)", 
+         comm, comm->src_proc->smx_host->name, comm->dst_proc->smx_host->name,
+         dst_buff_size);
 }
 
-int comm_filter_put(smx_comm_t comm, void *arg)
+/**
+ *  \brief Return the user data associated to the communication
+ *  \param comm The communication
+ *  \return the user data
+ */
+void *SIMIX_communication_get_data(smx_comm_t comm)
 {
-  return comm->type == comm_recv ? TRUE : FALSE;
+  return comm->data;
 }
+
 /******************************************************************************/
 /*                        Synchronous Communication                           */
 /******************************************************************************/
-/*  Throws:
+/**
+ *  \brief Put a send communication request in a rendez-vous point and waits for
+ *         its completion (blocking)
+ *  \param rdv The rendez-vous point
+ *  \param task_size The size of the communication action (for surf simulation)
+ *  \param rate The rate of the communication action (for surf)
+ *  \param timeout The timeout used for the waiting the completion 
+ *  \param src_buff The source buffer containing the message to be sent
+ *  \param src_buff_size The size of the source buffer
+ *  \param comm_ref The communication object used for the send  (useful if someone else wants to cancel this communication afterward)
+ *  \param data User data associated to the communication object
+ *  Throws:
  *   - host_error if peer failed
  *   - timeout_error if communication reached the timeout specified
  *   - network_error if network failed or peer issued a timeout
  */
 void SIMIX_network_send(smx_rdv_t rdv, double task_size, double rate, 
-                        double timeout, void *data, size_t data_size,
-                        int (filter)(smx_comm_t, void *), void *arg)
+                        double timeout, void *src_buff, size_t src_buff_size,
+                        smx_comm_t *comm_ref, void *data)
+{
+  *comm_ref = SIMIX_network_isend(rdv,task_size,rate,src_buff,src_buff_size,data);
+  SIMIX_network_wait(*comm_ref,timeout);
+}
+
+/**
+ *  \brief Put a receive communication request in a rendez-vous point and waits
+ *         for its completion (blocking)
+ *  \param rdv The rendez-vous point
+ *  \param timeout The timeout used for the waiting the completion 
+ *  \param dst_buff The destination buffer to copy the received message
+ *  \param src_buff_size The size of the destination buffer
+ *  \param comm_ref The communication object used for the send (useful if someone else wants to cancel this communication afterward)
+ *  Throws:
+ *   - host_error if peer failed
+ *   - timeout_error if communication reached the timeout specified
+ *   - network_error if network failed or peer issued a timeout
+ */
+void SIMIX_network_recv(smx_rdv_t rdv, double timeout, void *dst_buff, 
+                        size_t *dst_buff_size, smx_comm_t *comm_ref)
+{
+  *comm_ref = SIMIX_network_irecv(rdv,dst_buff,dst_buff_size);
+  SIMIX_network_wait(*comm_ref,timeout);
+}
+
+/******************************************************************************/
+/*                        Asynchronous Communication                          */
+/******************************************************************************/
+smx_comm_t SIMIX_network_isend(smx_rdv_t rdv, double task_size, double rate,
+    void *src_buff, size_t src_buff_size, void *data)
 {
   smx_comm_t comm;
 
-  /* Look for communication request matching our needs. 
+  /* Look for communication request matching our needs.
      If it is not found then create it and push it into the rendez-vous point */
-  comm = SIMIX_rdv_get_request(rdv, filter, arg);
+  comm = SIMIX_rdv_get_request(rdv, comm_recv);
 
-  if(comm == NULL){
-    comm = SIMIX_communication_new(comm_send, rdv);
+  if(!comm){
+    comm = SIMIX_communication_new(comm_send);
     SIMIX_rdv_push(rdv, comm);
   }
 
   /* Setup the communication request */
-  comm->src_host = SIMIX_host_self();
+  comm->src_proc = SIMIX_process_self();
   comm->task_size = task_size;
   comm->rate = rate;
+  comm->src_buff = src_buff;
+  comm->src_buff_size = src_buff_size;
   comm->data = data;
-  comm->data_size = data_size;
 
   SIMIX_communication_start(comm);
-
-  /* Wait for communication completion */
-  /* FIXME: if the semantic is non blocking, it shouldn't wait on the condition here */
-  /* FIXME: add timeout checking stuff */
-  SIMIX_communication_wait_for_completion(comm, timeout);
-
-  SIMIX_communication_destroy(comm);
+  return comm;
 }
 
-/*  Throws:
- *   - host_error if peer failed
- *   - timeout_error if communication reached the timeout specified
- *   - network_error if network failed or peer issued a timeout
- */
-void SIMIX_network_recv(smx_rdv_t rdv, double timeout, void *data, 
-                        size_t *data_size, int (filter)(smx_comm_t, void *), void *arg)
-{
+smx_comm_t SIMIX_network_irecv(smx_rdv_t rdv, void *dst_buff, size_t *dst_buff_size) {
   smx_comm_t comm;
 
-  /* Look for communication request matching our needs. 
+  /* Look for communication request matching our needs.
      If it is not found then create it and push it into the rendez-vous point */
-  comm = SIMIX_rdv_get_request(rdv, filter, arg);
+  comm = SIMIX_rdv_get_request(rdv, comm_send);
 
-  if(comm == NULL){
-    comm = SIMIX_communication_new(comm_send, rdv);
+  if(!comm){
+    comm = SIMIX_communication_new(comm_recv);
     SIMIX_rdv_push(rdv, comm);
   }
 
   /* Setup communication request */
-  comm->dst_host = SIMIX_host_self();
-  comm->dest_buff = data;
-  comm->dest_buff_size = data_size;
+  comm->dst_proc = SIMIX_process_self();
+  comm->dst_buff = dst_buff;
+  comm->dst_buff_size = dst_buff_size;
 
   SIMIX_communication_start(comm);
+  return comm;
+}
 
+/** @brief blocks until the communication terminates or the timeout occurs */
+void SIMIX_network_wait(smx_comm_t comm, double timeout) {
   /* Wait for communication completion */
-  /* FIXME: if the semantic is non blocking, it shouldn't wait on the condition here */
-  /* FIXME: add timeout checking stuff */
   SIMIX_communication_wait_for_completion(comm, timeout);
 
   SIMIX_communication_destroy(comm);
 }
 
-/******************************************************************************/
-/*                        Asynchronous Communication                          */
-/******************************************************************************/
-
-/*
-void SIMIX_network_wait(smx_action_t comm, double timeout)
-{
-    if (timeout > 0)
-      SIMIX_cond_wait_timeout(rvp_cond, rvp_comm_mutex, timeout - start_time);
-    else
-      SIMIX_cond_wait(rvp_cond, rvp_comm_mutex);    
-
+/** @Returns whether the (asynchronous) communication is done yet or not */
+int SIMIX_network_test(smx_comm_t comm) {
+  return comm->sem?SIMIX_sem_would_block(comm->sem):0;
 }
 
+/** @brief wait for the completion of any communication of a set
+ *
+ *  @Returns the rank in the dynar of communication which finished; destroy it after identifying which one it is
+ */
+unsigned int SIMIX_network_waitany(xbt_dynar_t comms) {
+  xbt_dynar_t sems = xbt_dynar_new(sizeof(smx_sem_t),NULL);
+  unsigned int cursor, found_comm=-1;
+  smx_comm_t comm,comm_finished=NULL;
 
-XBT_PUBLIC(int) SIMIX_network_test(smx_action_t comm)
-{
-  if(SIMIX_action_get_state (comm) == SURF_ACTION_DONE){
-    memcpy(comm->data
-
-  return SIMIX_action_get_state (comm) == SURF_ACTION_DONE ? TRUE : FALSE;
-}*/
-
+  xbt_dynar_foreach(comms,cursor,comm){
+    xbt_dynar_push(sems,&(comm->sem));
+  }
 
+  DEBUG1("Waiting for the completion of communication set %p", comms);
 
+  found_comm = SIMIX_sem_acquire_any(sems);
+  xbt_assert0(found_comm!=-1,"Cannot find which communication finished");
+  xbt_dynar_get_cpy(comms,found_comm,&comm_finished);
 
+  DEBUG1("Communication %p complete! Let's check for errors", comm_finished);
 
+  /* Make sure that everyone sleeping on that semaphore is awake,
+   * and that nobody will ever block on it */
+  SIMIX_sem_release_forever(comm_finished->sem);
 
+  /* Check for errors */
+  if(!SIMIX_host_get_state(SIMIX_host_self())){
+    if(comm_finished->rdv)
+      SIMIX_rdv_remove(comm_finished->rdv, comm_finished);
+    SIMIX_communication_destroy(comm_finished);
+    THROW0(host_error, 0, "Host failed");
+  } else if (SIMIX_action_get_state(comm_finished->act) == SURF_ACTION_FAILED){
+    SIMIX_communication_destroy(comm_finished);
+    THROW0(network_error, 0, "Link failure");
+  }
 
+  return found_comm;
+}