Logo AND Algorithmique Numérique Distribuée

Public GIT Repository
Restore environment variable used by StarPU.
[simgrid.git] / src / smpi / internals / smpi_memory.cpp
1 /* Copyright (c) 2015-2019. The SimGrid Team. All rights reserved.          */
2
3 /* This program is free software; you can redistribute it and/or modify it
4  * under the terms of the license (GNU LGPL) which comes with this package. */
5
6 #include <algorithm>
7 #include <cerrno>
8 #include <climits>
9 #include <cstdint>
10 #include <cstdio>
11 #include <cstdlib>
12 #include <cstring>
13 #include <deque>
14 #include <fcntl.h>
15 #include <sys/stat.h>
16 #include <sys/types.h>
17 #include <vector>
18
19 #ifndef WIN32
20 #include <sys/mman.h>
21 #include <unistd.h>
22
23 #include "src/internal_config.h"
24 #include "src/xbt/memory_map.hpp"
25
26 #include "private.hpp"
27 #include "src/smpi/include/smpi_actor.hpp"
28
29 XBT_LOG_NEW_DEFAULT_SUBCATEGORY(smpi_memory, smpi, "Memory layout support for SMPI");
30
31 int smpi_loaded_page      = -1;
32 char* smpi_data_exe_start = nullptr;
33 int smpi_data_exe_size    = 0;
34 SmpiPrivStrategies smpi_privatize_global_variables;
35 static void* smpi_data_exe_copy;
36
37 // Initialized by smpi_prepare_global_memory_segment().
38 static std::vector<simgrid::xbt::VmMap> initial_vm_map;
39
40 // We keep a copy of all the privatization regions: We can then delete everything easily by iterating over this
41 // collection and nothing can be leaked. We could also iterate over all actors but we would have to be diligent when two
42 // actors use the same privatization region (so, smart pointers would have to be used etc.)
43 // Use a std::deque so that pointers remain valid after push_back().
44 static std::deque<s_smpi_privatization_region_t> smpi_privatization_regions;
45
46 static constexpr int PROT_RWX = PROT_READ | PROT_WRITE | PROT_EXEC;
47 static constexpr int PROT_RW  = PROT_READ | PROT_WRITE;
48
49 /** Take a snapshot of the process' memory map.
50  */
51 void smpi_prepare_global_memory_segment()
52 {
53   initial_vm_map = simgrid::xbt::get_memory_map(getpid());
54 }
55
56 static void smpi_get_executable_global_size()
57 {
58   char buffer[PATH_MAX];
59   char* full_name = realpath(xbt_binary_name, buffer);
60   if (full_name == nullptr)
61     xbt_die("Could not resolve binary file name");
62
63   std::vector<simgrid::xbt::VmMap> map = simgrid::xbt::get_memory_map(getpid());
64   for (auto i = map.begin(); i != map.end() ; ++i) {
65     // TODO, In practice, this implementation would not detect a completely
66     // anonymous data segment. This does not happen in practice, however.
67
68     // File backed RW entry:
69     if (i->pathname == full_name && (i->prot & PROT_RWX) == PROT_RW) {
70       smpi_data_exe_start = (char*)i->start_addr;
71       smpi_data_exe_size  = i->end_addr - i->start_addr;
72       /* Here we are making the assumption that a suitable empty region
73          following the rw- area is the end of the data segment. It would
74          be better to check with the size of the data segment. */
75       ++i;
76       if (i != map.end() && i->pathname.empty() && (i->prot & PROT_RWX) == PROT_RW &&
77           (char*)i->start_addr == smpi_data_exe_start + smpi_data_exe_size) {
78         // Only count the portion of this region not present in the initial map.
79         auto found = std::find_if(initial_vm_map.begin(), initial_vm_map.end(), [&i](const simgrid::xbt::VmMap& m) {
80           return i->start_addr <= m.start_addr && m.start_addr < i->end_addr;
81         });
82         auto end_addr      = (found == initial_vm_map.end() ? i->end_addr : found->start_addr);
83         smpi_data_exe_size = (char*)end_addr - smpi_data_exe_start;
84       }
85       return;
86     }
87   }
88   xbt_die("Did not find my data segment.");
89 }
90 #endif
91
92 #if HAVE_SANITIZER_ADDRESS
93 #include <sanitizer/asan_interface.h>
94 static void* asan_safe_memcpy(void* dest, void* src, size_t n)
95 {
96   char* psrc  = static_cast<char*>(src);
97   char* pdest = static_cast<char*>(dest);
98   for (size_t i = 0; i < n;) {
99     while (i < n && __asan_address_is_poisoned(psrc + i))
100       ++i;
101     if (i < n) {
102       char* p  = static_cast<char*>(__asan_region_is_poisoned(psrc + i, n - i));
103       size_t j = p ? (p - psrc) : n;
104       memcpy(pdest + i, psrc + i, j - i);
105       i = j;
106     }
107   }
108   return dest;
109 }
110 #else
111 #define asan_safe_memcpy(dest, src, n) memcpy(dest, src, n)
112 #endif
113
114 /** Map a given SMPI privatization segment (make a SMPI process active) */
115 void smpi_switch_data_segment(simgrid::s4u::ActorPtr actor)
116 {
117   if (smpi_loaded_page == actor->get_pid()) // no need to switch, we've already loaded the one we want
118     return;
119
120   // So the job:
121   smpi_really_switch_data_segment(actor);
122 }
123
124 /** Map a given SMPI privatization segment (make a SMPI process active)  even if SMPI thinks it is already active
125  *
126  *  When doing a state restoration, the state of the restored variables  might not be consistent with the state of the
127  *  virtual memory. In this case, we to change the data segment.
128  */
129 void smpi_really_switch_data_segment(simgrid::s4u::ActorPtr actor)
130 {
131   if (smpi_data_exe_size == 0) // no need to switch
132     return;
133
134 #if HAVE_PRIVATIZATION
135   // FIXME, cross-process support (mmap across process when necessary)
136   XBT_DEBUG("Switching data frame to the one of process %ld", actor->get_pid());
137   simgrid::smpi::ActorExt* process = smpi_process_remote(actor);
138   int current                     = process->privatized_region()->file_descriptor;
139   void* tmp = mmap(TOPAGE(smpi_data_exe_start), smpi_data_exe_size, PROT_RW, MAP_FIXED | MAP_SHARED, current, 0);
140   if (tmp != TOPAGE(smpi_data_exe_start))
141     xbt_die("Couldn't map the new region (errno %d): %s", errno, strerror(errno));
142   smpi_loaded_page = actor->get_pid();
143 #endif
144 }
145
146 int smpi_is_privatization_file(char* file)
147 {
148   const std::string buffer_path("/dev/shm/my-buffer-");
149   return buffer_path.compare(0, std::string::npos, file, buffer_path.length()) == 0;
150 }
151
152 /**
153  * @brief Makes a backup of the segment in memory that stores the global variables of a process.
154  *        This backup is then used to initialize the global variables for every single
155  *        process that is added, regardless of the progress of the simulation.
156  */
157 void smpi_backup_global_memory_segment()
158 {
159 #if HAVE_PRIVATIZATION
160   smpi_get_executable_global_size();
161   initial_vm_map.clear();
162   initial_vm_map.shrink_to_fit();
163
164   XBT_DEBUG("bss+data segment found : size %d starting at %p", smpi_data_exe_size, smpi_data_exe_start);
165
166   if (smpi_data_exe_size == 0) { // no need to do anything as global variables don't exist
167     smpi_privatize_global_variables = SmpiPrivStrategies::NONE;
168     return;
169   }
170
171   smpi_data_exe_copy = ::operator new(smpi_data_exe_size);
172   // Make a copy of the data segment. This clean copy is retained over the whole runtime
173   // of the simulation and can be used to initialize a dynamically added, new process.
174   asan_safe_memcpy(smpi_data_exe_copy, TOPAGE(smpi_data_exe_start), smpi_data_exe_size);
175 #else /* ! HAVE_PRIVATIZATION */
176   xbt_die("You are trying to use privatization on a system that does not support it. Don't.");
177 #endif
178 }
179
180 // Initializes the memory mapping for a single process and returns the privatization region
181 smpi_privatization_region_t smpi_init_global_memory_segment_process()
182 {
183   int file_descriptor;
184   void* address = nullptr;
185   char path[24];
186   int status;
187
188   constexpr unsigned VAL_MASK = 0xffffffU;
189   static unsigned prev_val    = VAL_MASK;
190   for (unsigned i = (prev_val + 1) & VAL_MASK; i != prev_val; i = (i + 1) & VAL_MASK) {
191     snprintf(path, sizeof(path), "/smpi-buffer-%06x", i);
192     file_descriptor = shm_open(path, O_RDWR | O_CREAT | O_EXCL, S_IRUSR | S_IWUSR);
193     if (file_descriptor != -1 || errno != EEXIST) {
194       prev_val = i;
195       break;
196     }
197   }
198   if (file_descriptor < 0) {
199     if (errno == EMFILE) {
200       xbt_die("Impossible to create temporary file for memory mapping: %s\n\
201 The open() system call failed with the EMFILE error code (too many files). \n\n\
202 This means that you reached the system limits concerning the amount of files per process. \
203 This is not a surprise if you are trying to virtualize many processes on top of SMPI. \
204 Don't panic -- you should simply increase your system limits and try again. \n\n\
205 First, check what your limits are:\n\
206   cat /proc/sys/fs/file-max # Gives you the system-wide limit\n\
207   ulimit -Hn                # Gives you the per process hard limit\n\
208   ulimit -Sn                # Gives you the per process soft limit\n\
209   cat /proc/self/limits     # Displays any per-process limitation (including the one given above)\n\n\
210 If one of these values is less than the amount of MPI processes that you try to run, then you got the explanation of this error. \
211 Ask the Internet about tutorials on how to increase the files limit such as: https://rtcamp.com/tutorials/linux/increase-open-files-limit/",
212               strerror(errno));
213     }
214     xbt_die("Impossible to create temporary file for memory mapping: %s", strerror(errno));
215   }
216
217   status = ftruncate(file_descriptor, smpi_data_exe_size);
218   if (status)
219     xbt_die("Impossible to set the size of the temporary file for memory mapping");
220
221   /* Ask for a free region */
222   address = mmap(nullptr, smpi_data_exe_size, PROT_RW, MAP_SHARED, file_descriptor, 0);
223   if (address == MAP_FAILED)
224     xbt_die("Couldn't find a free region for memory mapping");
225
226   status = shm_unlink(path);
227   if (status)
228     xbt_die("Impossible to unlink temporary file for memory mapping");
229
230   // initialize the values
231   asan_safe_memcpy(address, smpi_data_exe_copy, smpi_data_exe_size);
232
233   // store the address of the mapping for further switches
234   smpi_privatization_regions.emplace_back(s_smpi_privatization_region_t{address, file_descriptor});
235
236   return &smpi_privatization_regions.back();
237 }
238
239 void smpi_destroy_global_memory_segments(){
240   if (smpi_data_exe_size == 0) // no need to switch
241     return;
242 #if HAVE_PRIVATIZATION
243   for (auto const& region : smpi_privatization_regions) {
244     if (munmap(region.address, smpi_data_exe_size) < 0)
245       XBT_WARN("Unmapping of fd %d failed: %s", region.file_descriptor, strerror(errno));
246     close(region.file_descriptor);
247   }
248   smpi_privatization_regions.clear();
249   ::operator delete(smpi_data_exe_copy);
250 #endif
251 }
252
253 static int sendbuffer_size = 0;
254 static char* sendbuffer    = nullptr;
255 static int recvbuffer_size = 0;
256 static char* recvbuffer    = nullptr;
257
258 //allocate a single buffer for all sends, growing it if needed
259 void* smpi_get_tmp_sendbuffer(int size)
260 {
261   if (not smpi_process()->replaying())
262     return xbt_malloc(size);
263   if (sendbuffer_size<size){
264     sendbuffer=static_cast<char*>(xbt_realloc(sendbuffer,size));
265     sendbuffer_size=size;
266   }
267   return sendbuffer;
268 }
269
270 //allocate a single buffer for all recv
271 void* smpi_get_tmp_recvbuffer(int size){
272   if (not smpi_process()->replaying())
273     return xbt_malloc(size);
274   if (recvbuffer_size<size){
275     recvbuffer=static_cast<char*>(xbt_realloc(recvbuffer,size));
276     recvbuffer_size=size;
277   }
278   return recvbuffer;
279 }
280
281 void smpi_free_tmp_buffer(void* buf){
282   if (not smpi_process()->replaying())
283     xbt_free(buf);
284 }
285
286 void smpi_free_replay_tmp_buffers(){
287   xbt_free(sendbuffer);
288   xbt_free(recvbuffer);
289 }