Logo AND Algorithmique Numérique Distribuée

Public GIT Repository
destroying a VM that was not shutdown is OK
[simgrid.git] / src / msg / msg_vm.cpp
index 64e13a6..26e46b8 100644 (file)
@@ -19,6 +19,8 @@
 #include "simgrid/host.h"
 #include "simgrid/simix.hpp"
 
+SG_BEGIN_DECL()
+
 struct dirty_page {
   double prev_clock;
   double prev_remaining;
@@ -56,7 +58,8 @@ void MSG_vm_get_params(msg_vm_t vm, vm_params_t params)
 /* **** Check state of a VM **** */
 static inline int __MSG_vm_is_state(msg_vm_t vm, e_surf_vm_state_t state)
 {
-  return static_cast<simgrid::s4u::VirtualMachine*>(vm)->pimpl_vm_->getState() == state;
+  simgrid::s4u::VirtualMachine* castedVm = static_cast<simgrid::s4u::VirtualMachine*>(vm);
+  return castedVm->pimpl_vm_ != nullptr && castedVm->pimpl_vm_->getState() == state;
 }
 
 /** @brief Returns whether the given VM has just created, not running.
@@ -106,18 +109,18 @@ msg_vm_t MSG_vm_create(msg_host_t pm, const char* name, int ramsize, int mig_net
 
   /* For the moment, intensity_rate is the percentage against the migration bandwidth */
   double host_speed = MSG_host_get_speed(pm);
-  double update_speed = ((double)dp_intensity/100) * mig_netspeed;
+  double update_speed = (static_cast<double>(dp_intensity)/100) * mig_netspeed;
 
   msg_vm_t vm = MSG_vm_create_core(pm, name);
   s_vm_params_t params;
   memset(&params, 0, sizeof(params));
-  params.ramsize = (sg_size_t)ramsize * 1024 * 1024;
+  params.ramsize = static_cast<sg_size_t>(ramsize) * 1024 * 1024;
   params.devsize = 0;
   params.skip_stage2 = 0;
   params.max_downtime = 0.03;
   params.dp_rate = (update_speed * 1024 * 1024) / host_speed;
   params.dp_cap = params.ramsize * 0.9; // assume working set memory is 90% of ramsize
-  params.mig_speed = (double)mig_netspeed * 1024 * 1024; // mig_speed
+  params.mig_speed = static_cast<double>(mig_netspeed) * 1024 * 1024; // mig_speed
 
   XBT_DEBUG("dp rate %f migspeed : %f intensity mem : %d, updatespeed %f, hostspeed %f", params.dp_rate,
             params.mig_speed, dp_intensity, update_speed, host_speed);
@@ -151,8 +154,6 @@ void MSG_vm_destroy(msg_vm_t vm)
   if (MSG_vm_is_running(vm))
     MSG_vm_shutdown(vm);
 
-  xbt_assert(MSG_vm_is_created(vm), "shutdown the given VM before destroying it");
-
   /* Then, destroy the VM object */
   simgrid::simix::kernelImmediate([vm]() {
     vm->destroy();
@@ -168,7 +169,7 @@ void MSG_vm_destroy(msg_vm_t vm)
 /** @brief Start a vm (i.e., boot the guest operating system)
  *  @ingroup msg_VMs
  *
- *  If the VM cannot be started (because of memory overprovisionning), an exception is generated.
+ *  If the VM cannot be started (because of memory over-provisioning), an exception is generated.
  */
 void MSG_vm_start(msg_vm_t vm)
 {
@@ -184,7 +185,7 @@ void MSG_vm_start(msg_vm_t vm)
     int pm_overcommit = pm->extension<simgrid::vm::VmHostExt>()->overcommit;
     long vm_ramsize   = typedVM->getRamsize();
 
-    if (pm_ramsize && !pm_overcommit) { /* Only verify that we don't overcommit on need */
+    if (pm_ramsize && not pm_overcommit) { /* Only verify that we don't overcommit on need */
       /* Retrieve the memory occupied by the VMs on that host. Yep, we have to traverse all VMs of all hosts for that */
       long total_ramsize_of_vms = 0;
       for (simgrid::s4u::VirtualMachine* ws_vm : simgrid::vm::VirtualMachineImpl::allVms_)
@@ -205,7 +206,7 @@ void MSG_vm_start(msg_vm_t vm)
     container_t vm_container = PJ_container_get(vm->cname());
     type_t type              = PJ_type_get("MSG_VM_STATE", vm_container->type);
     val_t value              = PJ_value_get_or_new("start", "0 0 1", type); // start is blue
-    new_pajePushState(MSG_get_clock(), vm_container, type, value);
+    new PushStateEvent(MSG_get_clock(), vm_container, type, value);
   }
 }
 
@@ -265,7 +266,7 @@ static int migration_rx_fun(int argc, char *argv[])
   bool received_finalize = false;
 
   char *finalize_task_name = get_mig_task_name(ms->vm, ms->src_pm, ms->dst_pm, 3);
-  while (!received_finalize) {
+  while (not received_finalize) {
     msg_task_t task = nullptr;
     int ret         = MSG_task_recv(&task, ms->mbox);
 
@@ -290,11 +291,10 @@ static int migration_rx_fun(int argc, char *argv[])
   // This is clearly ugly but I (Adrien) need more time to do something cleaner (actually we should copy the whole ms
   // structure at the beginning and free it at the end of each function)
   simgrid::s4u::VirtualMachine* vm = static_cast<simgrid::s4u::VirtualMachine*>(ms->vm);
-  msg_host_t src_pm                = ms->src_pm;
   msg_host_t dst_pm                = ms->dst_pm;
 
   // Make sure that we cannot get interrupted between the migrate and the resume to not end in an inconsistent state
-  simgrid::simix::kernelImmediate([vm, src_pm, dst_pm]() {
+  simgrid::simix::kernelImmediate([vm, dst_pm]() {
     /* Update the vm location */
     /* precopy migration makes the VM temporally paused */
     xbt_assert(vm->pimpl_vm_->getState() == SURF_VM_STATE_SUSPENDED);
@@ -304,52 +304,51 @@ static int migration_rx_fun(int argc, char *argv[])
     vm->pimpl_vm_->resume();
   });
 
-  {
-    // Now the VM is running on the new host (the migration is completed) (even if the SRC crash)
-    vm->pimpl_vm_->isMigrating = false;
-    XBT_DEBUG("VM(%s) moved from PM(%s) to PM(%s)", ms->vm->cname(), ms->src_pm->cname(), ms->dst_pm->cname());
-
-    if (TRACE_msg_vm_is_enabled()) {
-      static long long int counter = 0;
-      char key[INSTR_DEFAULT_STR_SIZE];
-      snprintf(key, INSTR_DEFAULT_STR_SIZE, "%lld", counter++);
-
-      // start link
-      container_t msg = PJ_container_get(vm->cname());
-      type_t type     = PJ_type_get("MSG_VM_LINK", PJ_type_get_root());
-      new_pajeStartLink(MSG_get_clock(), PJ_container_get_root(), type, msg, "M", key);
-
-      // destroy existing container of this vm
-      container_t existing_container = PJ_container_get(vm->cname());
-      PJ_container_remove_from_parent(existing_container);
-      PJ_container_free(existing_container);
-
-      // create new container on the new_host location
-      PJ_container_new(vm->cname(), INSTR_MSG_VM, PJ_container_get(ms->dst_pm->cname()));
-
-      // end link
-      msg  = PJ_container_get(vm->cname());
-      type = PJ_type_get("MSG_VM_LINK", PJ_type_get_root());
-      new_pajeEndLink(MSG_get_clock(), PJ_container_get_root(), type, msg, "M", key);
-    }
+
+  // Now the VM is running on the new host (the migration is completed) (even if the SRC crash)
+  vm->pimpl_vm_->isMigrating = false;
+  XBT_DEBUG("VM(%s) moved from PM(%s) to PM(%s)", ms->vm->cname(), ms->src_pm->cname(), ms->dst_pm->cname());
+
+  if (TRACE_msg_vm_is_enabled()) {
+    static long long int counter = 0;
+    char key[INSTR_DEFAULT_STR_SIZE];
+    snprintf(key, INSTR_DEFAULT_STR_SIZE, "%lld", counter);
+    counter++;
+
+    // start link
+    container_t msg = PJ_container_get(vm->cname());
+    type_t type     = PJ_type_get("MSG_VM_LINK", PJ_type_get_root());
+    new StartLinkEvent(MSG_get_clock(), PJ_container_get_root(), type, msg, "M", key);
+
+    // destroy existing container of this vm
+    container_t existing_container = PJ_container_get(vm->cname());
+    PJ_container_remove_from_parent(existing_container);
+    PJ_container_free(existing_container);
+
+    // create new container on the new_host location
+    PJ_container_new(vm->cname(), INSTR_MSG_VM, PJ_container_get(ms->dst_pm->cname()));
+
+    // end link
+    msg  = PJ_container_get(vm->cname());
+    type = PJ_type_get("MSG_VM_LINK", PJ_type_get_root());
+    new EndLinkEvent(MSG_get_clock(), PJ_container_get_root(), type, msg, "M", key);
   }
+
   // Inform the SRC that the migration has been correctly performed
-  {
-    char *task_name = get_mig_task_name(ms->vm, ms->src_pm, ms->dst_pm, 4);
-    msg_task_t task = MSG_task_create(task_name, 0, 0, nullptr);
-    msg_error_t ret = MSG_task_send(task, ms->mbox_ctl);
-    // xbt_assert(ret == MSG_OK);
-    if(ret == MSG_HOST_FAILURE){
-      // The DST has crashed, this is a problem has the VM since we are not sure whether SRC is considering that the VM
-      // has been correctly migrated on the DST node
-      // TODO What does it mean ? What should we do ?
-      MSG_task_destroy(task);
-    } else if(ret == MSG_TRANSFER_FAILURE){
-      // The SRC has crashed, this is not a problem has the VM has been correctly migrated on the DST node
-      MSG_task_destroy(task);
-    }
-    xbt_free(task_name);
+  char *task_name = get_mig_task_name(ms->vm, ms->src_pm, ms->dst_pm, 4);
+  msg_task_t task = MSG_task_create(task_name, 0, 0, nullptr);
+  msg_error_t ret = MSG_task_send(task, ms->mbox_ctl);
+  // xbt_assert(ret == MSG_OK);
+  if(ret == MSG_HOST_FAILURE){
+    // The DST has crashed, this is a problem has the VM since we are not sure whether SRC is considering that the VM
+    // has been correctly migrated on the DST node
+    // TODO What does it mean ? What should we do ?
+    MSG_task_destroy(task);
+  } else if(ret == MSG_TRANSFER_FAILURE){
+    // The SRC has crashed, this is not a problem has the VM has been correctly migrated on the DST node
+    MSG_task_destroy(task);
   }
+  xbt_free(task_name);
 
   XBT_DEBUG("mig: rx_done");
   return 0;
@@ -360,7 +359,7 @@ static void start_dirty_page_tracking(msg_vm_t vm)
   simgrid::vm::VirtualMachineImpl* pimpl = static_cast<simgrid::s4u::VirtualMachine*>(vm)->pimpl_vm_;
 
   pimpl->dp_enabled = 1;
-  if (!pimpl->dp_objs)
+  if (not pimpl->dp_objs)
     return;
 
   char *key = nullptr;
@@ -440,7 +439,7 @@ void MSG_host_add_task(msg_host_t host, msg_task_t task)
     dp->prev_clock = MSG_get_clock();
     dp->prev_remaining = remaining;
   }
-  if (!pimpl->dp_objs)
+  if (not pimpl->dp_objs)
     pimpl->dp_objs = xbt_dict_new_homogeneous(nullptr);
   xbt_assert(xbt_dict_get_or_null(pimpl->dp_objs, key) == nullptr);
   xbt_dict_set(pimpl->dp_objs, key, dp, nullptr);
@@ -483,7 +482,7 @@ static sg_size_t send_migration_data(msg_vm_t vm, msg_host_t src_pm, msg_host_t
 {
   sg_size_t sent = 0;
   char *task_name = get_mig_task_name(vm, src_pm, dst_pm, stage);
-  msg_task_t task = MSG_task_create(task_name, 0, (double)size, nullptr);
+  msg_task_t task = MSG_task_create(task_name, 0, static_cast<double>(size), nullptr);
 
   /* TODO: clean up */
 
@@ -500,18 +499,18 @@ static sg_size_t send_migration_data(msg_vm_t vm, msg_host_t src_pm, msg_host_t
   if (ret == MSG_OK) {
     sent = size;
   } else if (ret == MSG_TIMEOUT) {
-    sg_size_t remaining = (sg_size_t)MSG_task_get_remaining_communication(task);
+    sg_size_t remaining = static_cast<sg_size_t>(MSG_task_get_remaining_communication(task));
     sent = size - remaining;
     XBT_VERB("timeout (%lf s) in sending_migration_data, remaining %llu bytes of %llu", timeout, remaining, size);
   }
 
   /* FIXME: why try-and-catch is used here? */
   if(ret == MSG_HOST_FAILURE){
-    //XBT_DEBUG("SRC host failed during migration of %s (stage %d)", sg_host_name(vm), stage);
+    XBT_DEBUG("SRC host failed during migration of %s (stage %d)", vm->cname(), stage);
     MSG_task_destroy(task);
     THROWF(host_error, 0, "SRC host failed during migration of %s (stage %d)", vm->cname(), stage);
   }else if(ret == MSG_TRANSFER_FAILURE){
-    //XBT_DEBUG("DST host failed during migration of %s (stage %d)", sg_host_name(vm), stage);
+    XBT_DEBUG("DST host failed during migration of %s (stage %d)", vm->cname(), stage);
     MSG_task_destroy(task);
     THROWF(host_error, 0, "DST host failed during migration of %s (stage %d)", vm->cname(), stage);
   }
@@ -540,7 +539,7 @@ static sg_size_t get_updated_size(double computed, double dp_rate, double dp_cap
     updated_size = dp_cap;
   }
 
-  return (sg_size_t) updated_size;
+  return static_cast<sg_size_t>(updated_size);
 }
 
 static int migration_tx_fun(int argc, char *argv[])
@@ -548,7 +547,7 @@ static int migration_tx_fun(int argc, char *argv[])
   XBT_DEBUG("mig: tx_start");
 
   // Note that the ms structure has been allocated in do_migration and hence should be freed in the same function ;)
-  migration_session *ms = (migration_session *) MSG_process_get_data(MSG_process_self());
+  migration_session *ms = static_cast<migration_session *>(MSG_process_get_data(MSG_process_self()));
 
   s_vm_params_t params;
   static_cast<simgrid::s4u::VirtualMachine*>(ms->vm)->parameters(&params);
@@ -563,7 +562,7 @@ static int migration_tx_fun(int argc, char *argv[])
 
   double mig_timeout = 10000000.0;
 
-  double remaining_size = (double) (ramsize + devsize);
+  double remaining_size = static_cast<double>(ramsize + devsize);
   double threshold = 0.0;
 
   /* check parameters */
@@ -580,7 +579,7 @@ static int migration_tx_fun(int argc, char *argv[])
   start_dirty_page_tracking(ms->vm);
 
   double computed_during_stage1 = 0;
-  if (!skip_stage1) {
+  if (not skip_stage1) {
     double clock_prev_send = MSG_get_clock();
 
     try {
@@ -620,7 +619,7 @@ static int migration_tx_fun(int argc, char *argv[])
 
 
   /* Stage2: send update pages iteratively until the size of remaining states becomes smaller than threshold value. */
-  if (!skip_stage2) {
+  if (not skip_stage2) {
 
     int stage2_round = 0;
     for (;;) {
@@ -695,7 +694,8 @@ static int migration_tx_fun(int argc, char *argv[])
 
   try {
     XBT_DEBUG("Stage 3: Gonna send %f", remaining_size);
-    send_migration_data(ms->vm, ms->src_pm, ms->dst_pm, (sg_size_t)remaining_size, ms->mbox, 3, 0, mig_speed, -1);
+    send_migration_data(ms->vm, ms->src_pm, ms->dst_pm, static_cast<sg_size_t>(remaining_size), ms->mbox, 3, 0,
+                        mig_speed, -1);
   }
   catch(xbt_ex& e) {
     //hostfailure (if you want to know whether this is the SRC or the DST check directly in send_migration_data code)
@@ -740,7 +740,7 @@ void MSG_vm_migrate(msg_vm_t vm, msg_host_t dst_pm)
     THROWF(vm_error, 0, "Cannot migrate VM '%s' from host '%s', which is offline.", vm->cname(), src_pm->cname());
   if (dst_pm->isOff())
     THROWF(vm_error, 0, "Cannot migrate VM '%s' to host '%s', which is offline.", vm->cname(), dst_pm->cname());
-  if (!MSG_vm_is_running(vm))
+  if (not MSG_vm_is_running(vm))
     THROWF(vm_error, 0, "Cannot migrate VM '%s' that is not running yet.", vm->cname());
   if (typedVm->isMigrating())
     THROWF(vm_error, 0, "Cannot migrate VM '%s' that is already migrating.", vm->cname());
@@ -773,9 +773,7 @@ void MSG_vm_migrate(msg_vm_t vm, msg_host_t dst_pm)
   /* wait until the migration have finished or on error has occurred */
   XBT_DEBUG("wait for reception of the final ACK (i.e. migration has been correctly performed");
   msg_task_t task = nullptr;
-  msg_error_t ret = MSG_TIMEOUT;
-  while (ret == MSG_TIMEOUT && dst_pm->isOn()) // The rx will tell me when he gots the VM
-    ret = MSG_task_receive_with_timeout(&task, ms->mbox_ctl, 4);
+  msg_error_t ret = MSG_task_receive(&task, ms->mbox_ctl);
 
   pimpl->isMigrating = false;
 
@@ -824,7 +822,7 @@ void MSG_vm_suspend(msg_vm_t vm)
     container_t vm_container = PJ_container_get(vm->cname());
     type_t type              = PJ_type_get("MSG_VM_STATE", vm_container->type);
     val_t value              = PJ_value_get_or_new("suspend", "1 0 0", type); // suspend is red
-    new_pajePushState(MSG_get_clock(), vm_container, type, value);
+    new PushStateEvent(MSG_get_clock(), vm_container, type, value);
   }
 }
 
@@ -840,7 +838,7 @@ void MSG_vm_resume(msg_vm_t vm)
   if (TRACE_msg_vm_is_enabled()) {
     container_t vm_container = PJ_container_get(vm->cname());
     type_t type              = PJ_type_get("MSG_VM_STATE", vm_container->type);
-    new_pajePopState(MSG_get_clock(), vm_container, type);
+    new PopStateEvent(MSG_get_clock(), vm_container, type);
   }
 }
 
@@ -883,3 +881,5 @@ void MSG_vm_set_bound(msg_vm_t vm, double bound)
   simgrid::simix::kernelImmediate(
       [vm, bound]() { static_cast<simgrid::s4u::VirtualMachine*>(vm)->pimpl_vm_->setBound(bound); });
 }
+
+SG_END_DECL()