Logo AND Algorithmique Numérique Distribuée

Public GIT Repository
Update copyright lines.
[simgrid.git] / examples / s4u / exec-ptask / s4u-exec-ptask.cpp
1 /* Copyright (c) 2017-2021. The SimGrid Team. All rights reserved.          */
2
3 /* This program is free software; you can redistribute it and/or modify it
4  * under the terms of the license (GNU LGPL) which comes with this package. */
5
6 /* Parallel activities are convenient abstractions of parallel computational kernels that span over several machines.
7  * To create a new one, you have to provide several things:
8  *   - a vector of hosts on which the activity will execute
9  *   - a vector of values, the amount of computation for each of the hosts (in flops)
10  *   - a matrix of values, the amount of communication between each pair of hosts (in bytes)
11  *
12  * Each of these operation will be processed at the same relative speed.
13  * This means that at some point in time, all sub-executions and all sub-communications will be at 20% of completion.
14  * Also, they will all complete at the exact same time.
15  *
16  * This is obviously a simplistic abstraction, but this is very handful in a large amount of situations.
17  *
18  * Please note that you must have the LV07 platform model enabled to use such constructs.
19  */
20
21 #include <simgrid/s4u.hpp>
22
23 XBT_LOG_NEW_DEFAULT_CATEGORY(s4u_ptask, "Messages specific for this s4u example");
24
25 static void runner()
26 {
27   /* Retrieve the list of all hosts as an array of hosts */
28   auto hosts         = simgrid::s4u::Engine::get_instance()->get_all_hosts();
29   size_t hosts_count = hosts.size();
30
31   std::vector<double> computation_amounts;
32   std::vector<double> communication_amounts;
33
34   /* ------[ test 1 ]----------------- */
35   XBT_INFO("First, build a classical parallel activity, with 1 Gflop to execute on each node, "
36            "and 10MB to exchange between each pair");
37
38   computation_amounts.assign(hosts_count, 1e9 /*1Gflop*/);
39   communication_amounts.assign(hosts_count * hosts_count, 0);
40   for (size_t i = 0; i < hosts_count; i++)
41     for (size_t j = i + 1; j < hosts_count; j++)
42       communication_amounts[i * hosts_count + j] = 1e7; // 10 MB
43
44   simgrid::s4u::this_actor::parallel_execute(hosts, computation_amounts, communication_amounts);
45
46   /* ------[ test 2 ]----------------- */
47   XBT_INFO("We can do the same with a timeout of 10 seconds enabled.");
48   computation_amounts.assign(hosts_count, 1e9 /*1Gflop*/);
49   communication_amounts.assign(hosts_count * hosts_count, 0);
50   for (size_t i = 0; i < hosts_count; i++)
51     for (size_t j = i + 1; j < hosts_count; j++)
52       communication_amounts[i * hosts_count + j] = 1e7; // 10 MB
53
54   try {
55     simgrid::s4u::this_actor::exec_init(hosts, computation_amounts, communication_amounts)
56         ->wait_for(10.0 /* timeout (in seconds)*/);
57     xbt_die("Woops, this did not timeout as expected... Please report that bug.");
58   } catch (const simgrid::TimeoutException&) {
59     XBT_INFO("Caught the expected timeout exception.");
60   }
61
62   /* ------[ test 3 ]----------------- */
63   XBT_INFO("Then, build a parallel activity involving only computations (of different amounts) and no communication");
64   computation_amounts = {3e8, 6e8, 1e9}; // 300Mflop, 600Mflop, 1Gflop
65   communication_amounts.clear();         // no comm
66   simgrid::s4u::this_actor::parallel_execute(hosts, computation_amounts, communication_amounts);
67
68   /* ------[ test 4 ]----------------- */
69   XBT_INFO("Then, build a parallel activity with no computation nor communication (synchro only)");
70   computation_amounts.clear();
71   communication_amounts.clear();
72   simgrid::s4u::this_actor::parallel_execute(hosts, computation_amounts, communication_amounts);
73
74   /* ------[ test 5 ]----------------- */
75   XBT_INFO("Then, Monitor the execution of a parallel activity");
76   computation_amounts.assign(hosts_count, 1e6 /*1Mflop*/);
77   communication_amounts = {0, 1e6, 0, 0, 0, 1e6, 1e6, 0, 0};
78   simgrid::s4u::ExecPtr activity =
79       simgrid::s4u::this_actor::exec_init(hosts, computation_amounts, communication_amounts);
80   activity->start();
81
82   while (not activity->test()) {
83     XBT_INFO("Remaining flop ratio: %.0f%%", 100 * activity->get_remaining_ratio());
84     simgrid::s4u::this_actor::sleep_for(5);
85   }
86   activity->wait();
87
88   /* ------[ test 6 ]----------------- */
89   XBT_INFO("Finally, simulate a malleable task (a parallel execution that gets reconfigured after its start).");
90   XBT_INFO("  - Start a regular parallel execution, with both comm and computation");
91   computation_amounts.assign(hosts_count, 1e6 /*1Mflop*/);
92   communication_amounts = {0, 1e6, 0, 0, 1e6, 0, 1e6, 0, 0};
93   activity              = simgrid::s4u::this_actor::exec_init(hosts, computation_amounts, communication_amounts);
94   activity->start();
95
96   simgrid::s4u::this_actor::sleep_for(10);
97   double remaining_ratio = activity->get_remaining_ratio();
98   XBT_INFO("  - After 10 seconds, %.2f%% remains to be done. Change it from 3 hosts to 2 hosts only.",
99            remaining_ratio * 100);
100   XBT_INFO("    Let's first suspend the task.");
101   activity->suspend();
102
103   XBT_INFO("  - Now, simulate the reconfiguration (modeled as a comm from the removed host to the remaining ones).");
104   std::vector<double> rescheduling_comp{0, 0, 0};
105   std::vector<double> rescheduling_comm{0, 0, 0, 0, 0, 0, 25000, 25000, 0};
106   simgrid::s4u::this_actor::parallel_execute(hosts, rescheduling_comp, rescheduling_comm);
107
108   XBT_INFO("  - Now, let's cancel the old task and create a new task with modified comm and computation vectors:");
109   XBT_INFO("    What was already done is removed, and the load of the removed host is shared between remaining ones.");
110   for (int i = 0; i < 2; i++) {
111     // remove what we've done so far, for both comm and compute load
112     computation_amounts[i]   *= remaining_ratio;
113     communication_amounts[i] *= remaining_ratio;
114     // The work from 1 must be shared between 2 remaining ones. 1/2=50% of extra work for each
115     computation_amounts[i]   *= 1.5;
116     communication_amounts[i] *= 1.5;
117   }
118   hosts.resize(2);
119   computation_amounts.resize(2);
120   double remaining_comm = communication_amounts[1];
121   communication_amounts = {0, remaining_comm, remaining_comm, 0}; // Resizing a linearized matrix is hairly
122
123   activity->cancel();
124   activity = simgrid::s4u::this_actor::exec_init(hosts, computation_amounts, communication_amounts);
125
126   XBT_INFO("  - Done, let's wait for the task completion");
127   activity->wait();
128
129   XBT_INFO("Goodbye now!");
130 }
131
132 int main(int argc, char* argv[])
133 {
134   simgrid::s4u::Engine e(&argc, argv);
135
136   xbt_assert(argc == 2, "Usage: %s <platform file>", argv[0]);
137
138   e.load_platform(argv[1]);
139   simgrid::s4u::Actor::create("test", simgrid::s4u::Host::by_name("MyHost1"), runner);
140
141   e.run();
142   XBT_INFO("Simulation done.");
143   return 0;
144 }