Logo AND Algorithmique Numérique Distribuée

Public GIT Repository
Introduce SMPI_app_instance_join()
[simgrid.git] / src / smpi / internals / smpi_deployment.cpp
index a9d4450..c39bbd5 100644 (file)
@@ -1,4 +1,4 @@
-/* Copyright (c) 2004-2021. The SimGrid Team.
+/* Copyright (c) 2004-2023. The SimGrid Team.
  * All rights reserved.                                                     */
 
 /* This program is free software; you can redistribute it and/or modify it
@@ -7,14 +7,13 @@
 #include "smpi_host.hpp"
 #include "private.hpp"
 #include "simgrid/s4u/Engine.hpp"
+#include "simgrid/s4u/Barrier.hpp"
 #include "smpi_comm.hpp"
 #include <map>
 
 XBT_LOG_EXTERNAL_DEFAULT_CATEGORY(smpi);
 
-namespace simgrid {
-namespace smpi {
-namespace app {
+namespace simgrid::smpi::app {
 
 static int universe_size = 0;
 
@@ -25,15 +24,14 @@ public:
     auto* group = new simgrid::smpi::Group(size_);
     comm_world_ = new simgrid::smpi::Comm(group, nullptr, false, -1);
     universe_size += max_no_processes;
+    bar_ = s4u::Barrier::create(size_);
   }
-
+  s4u::BarrierPtr bar_;
   unsigned int size_;
   unsigned int finalized_ranks_ = 0;
   MPI_Comm comm_world_;
 };
-}
-}
-}
+} // namespace simgrid::smpi::app
 
 using simgrid::smpi::app::Instance;
 
@@ -54,9 +52,39 @@ void SMPI_app_instance_register(const char *name, xbt_main_func_t code, int num_
   if (code != nullptr) // When started with smpirun, we will not execute a function
     simgrid::s4u::Engine::get_instance()->register_function(name, code);
 
-  Instance instance(num_processes);
+  smpi_instances.try_emplace(name, num_processes);
+}
+void SMPI_app_instance_start(const char* name, const std::function<void()>& code,
+                             std::vector<simgrid::s4u::Host*> const& hosts)
+{
+  xbt_assert(not hosts.empty(), "Cannot start a SMPI instance on 0 hosts");
+
+  auto [_, inserted] = smpi_instances.try_emplace(name, hosts.size());
+  xbt_assert(inserted, "Cannot start two MPI applications of the same name '%s'", name);
+
+  int rank = 0;
+  for (auto* host : hosts) {
+    auto rank_str = std::to_string(rank);
+    auto actor    = simgrid::s4u::Actor::init(std::string(name) + "#" + rank_str, host);
+    actor->set_property("instance_id", name);
+    actor->set_property("rank", rank_str);
+    actor->start(code);
+
+    smpi_deployment_register_process(name, rank, actor.get());
 
-  smpi_instances.insert(std::pair<std::string, Instance>(name, instance));
+    rank++;
+  }
+}
+void SMPI_app_instance_join(const std::string& instance_id)
+{
+  std::vector<simgrid::s4u::ActorPtr> actors =
+      simgrid::s4u::Engine::get_instance()->get_filtered_actors([instance_id](simgrid::s4u::ActorPtr act) {
+        auto* actor_instance = act->get_property("instance_id");
+        return actor_instance != nullptr && strcmp(actor_instance, instance_id.c_str()) == 0;
+      });
+
+  for (auto& act : actors)
+    act->join();
 }
 
 void smpi_deployment_register_process(const std::string& instance_id, int rank, const simgrid::s4u::Actor* actor)
@@ -65,6 +93,12 @@ void smpi_deployment_register_process(const std::string& instance_id, int rank,
   instance.comm_world_->group()->set_mapping(actor->get_pid(), rank);
 }
 
+void smpi_deployment_startup_barrier(const std::string& instance_id)
+{
+  const Instance& instance = smpi_instances.at(instance_id);
+  instance.bar_->wait();
+}
+
 void smpi_deployment_unregister_process(const std::string& instance_id)
 {
   Instance& instance = smpi_instances.at(instance_id);
@@ -78,18 +112,13 @@ void smpi_deployment_unregister_process(const std::string& instance_id)
 
 MPI_Comm* smpi_deployment_comm_world(const std::string& instance_id)
 {
-  if (smpi_instances
-          .empty()) { // no instance registered, we probably used smpirun. (FIXME: I guess this never happens for real)
-    return nullptr;
-  }
   Instance& instance = smpi_instances.at(instance_id);
   return &instance.comm_world_;
 }
 
 void smpi_deployment_cleanup_instances(){
-  for (auto const& item : smpi_instances) {
-    XBT_INFO("Stalling SMPI instance: %s. Do all your MPI ranks call MPI_Finalize()?", item.first.c_str());
-    Instance instance = item.second;
+  for (auto const& [name, instance] : smpi_instances) {
+    XBT_INFO("Stalling SMPI instance: %s. Do all your MPI ranks call MPI_Finalize()?", name.c_str());
     simgrid::smpi::Comm::destroy(instance.comm_world_);
   }
   smpi_instances.clear();