Logo AND Algorithmique Numérique Distribuée

Public GIT Repository
Inline the parse_factor function now that FactorSet is in place
[simgrid.git] / src / smpi / internals / smpi_deployment.cpp
1 /* Copyright (c) 2004-2022. The SimGrid Team.
2  * All rights reserved.                                                     */
3
4 /* This program is free software; you can redistribute it and/or modify it
5  * under the terms of the license (GNU LGPL) which comes with this package. */
6
7 #include "smpi_host.hpp"
8 #include "private.hpp"
9 #include "simgrid/s4u/Engine.hpp"
10 #include "simgrid/s4u/Barrier.hpp"
11 #include "smpi_comm.hpp"
12 #include <map>
13
14 XBT_LOG_EXTERNAL_DEFAULT_CATEGORY(smpi);
15
16 namespace simgrid::smpi::app {
17
18 static int universe_size = 0;
19
20 class Instance {
21 public:
22   explicit Instance(int max_no_processes) : size_(max_no_processes)
23   {
24     auto* group = new simgrid::smpi::Group(size_);
25     comm_world_ = new simgrid::smpi::Comm(group, nullptr, false, -1);
26     universe_size += max_no_processes;
27     bar_ = s4u::Barrier::create(size_);
28   }
29   s4u::BarrierPtr bar_;
30   unsigned int size_;
31   unsigned int finalized_ranks_ = 0;
32   MPI_Comm comm_world_;
33 };
34 } // namespace simgrid::smpi::app
35
36 using simgrid::smpi::app::Instance;
37
38 static std::map<std::string, Instance, std::less<>> smpi_instances;
39
40 /** @ingroup smpi_simulation
41  * @brief Registers a running instance of an MPI program.
42  *
43  * @param name the reference name of the function.
44  * @param code either the main mpi function
45  *             (must have a int ..(int argc, char *argv[]) prototype) or nullptr
46  *             (if the function deployment is managed somewhere else —
47  *              e.g., when deploying manually or using smpirun)
48  * @param num_processes the size of the instance we want to deploy
49  */
50 void SMPI_app_instance_register(const char *name, xbt_main_func_t code, int num_processes)
51 {
52   if (code != nullptr) // When started with smpirun, we will not execute a function
53     simgrid::s4u::Engine::get_instance()->register_function(name, code);
54
55   smpi_instances.try_emplace(name, num_processes);
56 }
57
58 void smpi_deployment_register_process(const std::string& instance_id, int rank, const simgrid::s4u::Actor* actor)
59 {
60   const Instance& instance = smpi_instances.at(instance_id);
61   instance.comm_world_->group()->set_mapping(actor->get_pid(), rank);
62 }
63
64 void smpi_deployment_startup_barrier(const std::string& instance_id)
65 {
66   const Instance& instance = smpi_instances.at(instance_id);
67   instance.bar_->wait();
68 }
69
70 void smpi_deployment_unregister_process(const std::string& instance_id)
71 {
72   Instance& instance = smpi_instances.at(instance_id);
73   instance.finalized_ranks_++;
74
75   if (instance.finalized_ranks_ == instance.size_) {
76     simgrid::smpi::Comm::destroy(instance.comm_world_);
77     smpi_instances.erase(instance_id);
78   }
79 }
80
81 MPI_Comm* smpi_deployment_comm_world(const std::string& instance_id)
82 {
83   if (smpi_instances
84           .empty()) { // no instance registered, we probably used smpirun. (FIXME: I guess this never happens for real)
85     return nullptr;
86   }
87   Instance& instance = smpi_instances.at(instance_id);
88   return &instance.comm_world_;
89 }
90
91 void smpi_deployment_cleanup_instances(){
92   for (auto const& [name, instance] : smpi_instances) {
93     XBT_INFO("Stalling SMPI instance: %s. Do all your MPI ranks call MPI_Finalize()?", name.c_str());
94     simgrid::smpi::Comm::destroy(instance.comm_world_);
95   }
96   smpi_instances.clear();
97 }
98
99 int smpi_get_universe_size()
100 {
101   return simgrid::smpi::app::universe_size;
102 }
103
104 /** @brief Auxiliary method to get list of hosts to deploy app */
105 static std::vector<simgrid::s4u::Host*> smpi_get_hosts(const simgrid::s4u::Engine* e, const std::string& hostfile)
106 {
107   if (hostfile == "") {
108     return e->get_all_hosts();
109   }
110   std::vector<simgrid::s4u::Host*> hosts;
111   std::ifstream in(hostfile.c_str());
112   xbt_assert(in, "smpirun: Cannot open the host file: %s", hostfile.c_str());
113   std::string str;
114   while (std::getline(in, str)) {
115     if (not str.empty())
116       hosts.emplace_back(e->host_by_name(str));
117   }
118   xbt_assert(not hosts.empty(), "smpirun: the hostfile '%s' is empty", hostfile.c_str());
119   return hosts;
120 }
121
122 /** @brief Read replay configuration from file */
123 static std::vector<std::string> smpi_read_replay(const std::string& replayfile)
124 {
125   std::vector<std::string> replay;
126   if (replayfile == "")
127     return replay;
128
129   std::ifstream in(replayfile.c_str());
130   xbt_assert(in, "smpirun: Cannot open the replay file: %s", replayfile.c_str());
131   std::string str;
132   while (std::getline(in, str)) {
133     if (not str.empty())
134       replay.emplace_back(str);
135   }
136
137   return replay;
138 }
139
140 /** @brief Build argument vector to pass to process */
141 static std::vector<std::string> smpi_deployment_get_args(int rank_id, const std::vector<std::string>& replay,
142                                                          const std::vector<const char*>& run_args)
143 {
144   std::vector<std::string> args{std::to_string(rank_id)};
145   // pass arguments to process only if not a replay execution
146   if (replay.empty())
147     args.insert(args.end(), begin(run_args), end(run_args));
148   /* one trace per process */
149   if (replay.size() > 1)
150     args.emplace_back(replay[rank_id]);
151   return args;
152 }
153
154 /**
155  * @brief Deploy an SMPI application from a smpirun call
156  *
157  * This used to be done at smpirun script, parsing either the hostfile or the platform XML.
158  * If hostfile isn't provided, get the list of hosts from engine.
159  */
160 int smpi_deployment_smpirun(const simgrid::s4u::Engine* e, const std::string& hostfile, int np,
161                             const std::string& replayfile, int map, const std::vector<const char*>& run_args)
162 {
163   auto hosts     = smpi_get_hosts(e, hostfile);
164   auto replay    = smpi_read_replay(replayfile);
165   int hosts_size = static_cast<int>(hosts.size());
166   if (np == 0)
167     np = hosts_size;
168
169   xbt_assert(np > 0, "Invalid number of process (np must be > 0). Check your np parameter, platform or hostfile");
170
171   if (np > hosts_size) {
172     XBT_INFO("You requested to use %d ranks, but there is only %d processes in your hostfile...", np, hosts_size);
173   }
174
175   for (int i = 0; i < np; i++) {
176     simgrid::s4u::Host* host = hosts[i % hosts_size];
177     std::string rank_id      = std::to_string(i);
178     auto args                = smpi_deployment_get_args(i, replay, run_args);
179     auto actor               = simgrid::s4u::Actor::create(rank_id, host, rank_id, args);
180     /* keeping the same behavior as done in smpirun script, print mapping rank/process */
181     if (map != 0) {
182       XBT_INFO("[rank %d] -> %s", i, host->get_cname());
183     }
184     actor->set_property("instance_id", "smpirun");
185     actor->set_property("rank", rank_id);
186     if (not replay.empty())
187       actor->set_property("smpi_replay", "true");
188     /* shared trace file, set it to rank 0 */
189     if (i == 0 && replay.size() == 1)
190       actor->set_property("tracefile", replay[0]);
191   }
192   return np;
193 }