Logo AND Algorithmique Numérique Distribuée

Public GIT Repository
Merge branch 'master' into 'rework-energy-plugin'
[simgrid.git] / src / smpi / internals / smpi_memory.cpp
1 /* Copyright (c) 2015-2019. The SimGrid Team. All rights reserved.          */
2
3 /* This program is free software; you can redistribute it and/or modify it
4  * under the terms of the license (GNU LGPL) which comes with this package. */
5
6 #include <algorithm>
7 #include <cerrno>
8 #include <climits>
9 #include <cstdint>
10 #include <cstdio>
11 #include <cstdlib>
12 #include <cstring>
13 #include <deque>
14 #include <fcntl.h>
15 #include <sys/stat.h>
16 #include <sys/types.h>
17 #include <vector>
18
19 #ifndef WIN32
20 #include <sys/mman.h>
21 #include <unistd.h>
22
23 #include "src/internal_config.h"
24 #include "src/xbt/memory_map.hpp"
25
26 #include "private.hpp"
27 #include "src/smpi/include/smpi_actor.hpp"
28
29 XBT_LOG_NEW_DEFAULT_SUBCATEGORY(smpi_memory, smpi, "Memory layout support for SMPI");
30
31 int smpi_loaded_page      = -1;
32 char* smpi_data_exe_start = nullptr;
33 int smpi_data_exe_size    = 0;
34 SmpiPrivStrategies smpi_privatize_global_variables;
35 static void* smpi_data_exe_copy;
36
37 // Initialized by smpi_prepare_global_memory_segment().
38 static std::vector<simgrid::xbt::VmMap> initial_vm_map;
39
40 // We keep a copy of all the privatization regions: We can then delete everything easily by iterating over this
41 // collection and nothing can be leaked. We could also iterate over all actors but we would have to be diligent when two
42 // actors use the same privatization region (so, smart pointers would have to be used etc.)
43 // Use a std::deque so that pointers remain valid after push_back().
44 static std::deque<s_smpi_privatization_region_t> smpi_privatization_regions;
45
46 static constexpr int PROT_RWX = PROT_READ | PROT_WRITE | PROT_EXEC;
47 static constexpr int PROT_RW  = PROT_READ | PROT_WRITE;
48
49 /** Take a snapshot of the process' memory map.
50  */
51 void smpi_prepare_global_memory_segment()
52 {
53   initial_vm_map = simgrid::xbt::get_memory_map(getpid());
54 }
55
56 static void smpi_get_executable_global_size()
57 {
58   char buffer[PATH_MAX];
59   char* full_name = realpath(xbt_binary_name, buffer);
60   xbt_assert(full_name != nullptr, "Could not resolve real path of binary file '%s'", xbt_binary_name);
61
62   std::vector<simgrid::xbt::VmMap> map = simgrid::xbt::get_memory_map(getpid());
63   for (auto i = map.begin(); i != map.end() ; ++i) {
64     // TODO, In practice, this implementation would not detect a completely
65     // anonymous data segment. This does not happen in practice, however.
66
67     // File backed RW entry:
68     if (i->pathname == full_name && (i->prot & PROT_RWX) == PROT_RW) {
69       smpi_data_exe_start = (char*)i->start_addr;
70       smpi_data_exe_size  = i->end_addr - i->start_addr;
71       /* Here we are making the assumption that a suitable empty region
72          following the rw- area is the end of the data segment. It would
73          be better to check with the size of the data segment. */
74       ++i;
75       if (i != map.end() && i->pathname.empty() && (i->prot & PROT_RWX) == PROT_RW &&
76           (char*)i->start_addr == smpi_data_exe_start + smpi_data_exe_size) {
77         // Only count the portion of this region not present in the initial map.
78         auto found = std::find_if(initial_vm_map.begin(), initial_vm_map.end(), [&i](const simgrid::xbt::VmMap& m) {
79           return i->start_addr <= m.start_addr && m.start_addr < i->end_addr;
80         });
81         auto end_addr      = (found == initial_vm_map.end() ? i->end_addr : found->start_addr);
82         smpi_data_exe_size = (char*)end_addr - smpi_data_exe_start;
83       }
84       return;
85     }
86   }
87   xbt_die("Did not find my data segment.");
88 }
89 #endif
90
91 #if HAVE_SANITIZER_ADDRESS
92 #include <sanitizer/asan_interface.h>
93 static void* asan_safe_memcpy(void* dest, void* src, size_t n)
94 {
95   char* psrc  = static_cast<char*>(src);
96   char* pdest = static_cast<char*>(dest);
97   for (size_t i = 0; i < n;) {
98     while (i < n && __asan_address_is_poisoned(psrc + i))
99       ++i;
100     if (i < n) {
101       char* p  = static_cast<char*>(__asan_region_is_poisoned(psrc + i, n - i));
102       size_t j = p ? (p - psrc) : n;
103       memcpy(pdest + i, psrc + i, j - i);
104       i = j;
105     }
106   }
107   return dest;
108 }
109 #else
110 #define asan_safe_memcpy(dest, src, n) memcpy((dest), (src), (n))
111 #endif
112
113 /** Map a given SMPI privatization segment (make a SMPI process active)
114  *
115  *  When doing a state restoration, the state of the restored variables  might not be consistent with the state of the
116  *  virtual memory. In this case, we to change the data segment.
117  */
118 void smpi_switch_data_segment(simgrid::s4u::ActorPtr actor)
119 {
120   if (smpi_loaded_page == actor->get_pid()) // no need to switch, we've already loaded the one we want
121     return;
122
123   if (smpi_data_exe_size == 0) // no need to switch
124     return;
125
126 #if HAVE_PRIVATIZATION
127   // FIXME, cross-process support (mmap across process when necessary)
128   XBT_DEBUG("Switching data frame to the one of process %ld", actor->get_pid());
129   simgrid::smpi::ActorExt* process = smpi_process_remote(actor);
130   int current                     = process->privatized_region()->file_descriptor;
131   void* tmp = mmap(TOPAGE(smpi_data_exe_start), smpi_data_exe_size, PROT_RW, MAP_FIXED | MAP_SHARED, current, 0);
132   if (tmp != TOPAGE(smpi_data_exe_start))
133     xbt_die("Couldn't map the new region (errno %d): %s", errno, strerror(errno));
134   smpi_loaded_page = actor->get_pid();
135 #endif
136 }
137
138 /**
139  * @brief Makes a backup of the segment in memory that stores the global variables of a process.
140  *        This backup is then used to initialize the global variables for every single
141  *        process that is added, regardless of the progress of the simulation.
142  */
143 void smpi_backup_global_memory_segment()
144 {
145 #if HAVE_PRIVATIZATION
146   smpi_get_executable_global_size();
147   initial_vm_map.clear();
148   initial_vm_map.shrink_to_fit();
149
150   XBT_DEBUG("bss+data segment found : size %d starting at %p", smpi_data_exe_size, smpi_data_exe_start);
151
152   if (smpi_data_exe_size == 0) { // no need to do anything as global variables don't exist
153     smpi_privatize_global_variables = SmpiPrivStrategies::NONE;
154     return;
155   }
156
157   smpi_data_exe_copy = ::operator new(smpi_data_exe_size);
158   // Make a copy of the data segment. This clean copy is retained over the whole runtime
159   // of the simulation and can be used to initialize a dynamically added, new process.
160   asan_safe_memcpy(smpi_data_exe_copy, TOPAGE(smpi_data_exe_start), smpi_data_exe_size);
161 #else /* ! HAVE_PRIVATIZATION */
162   xbt_die("You are trying to use privatization on a system that does not support it. Don't.");
163 #endif
164 }
165
166 // Initializes the memory mapping for a single process and returns the privatization region
167 smpi_privatization_region_t smpi_init_global_memory_segment_process()
168 {
169   int file_descriptor;
170   void* address = nullptr;
171   char path[24];
172   int status;
173
174   constexpr unsigned VAL_MASK = 0xffffffU;
175   static unsigned prev_val    = VAL_MASK;
176   for (unsigned i = (prev_val + 1) & VAL_MASK; i != prev_val; i = (i + 1) & VAL_MASK) {
177     snprintf(path, sizeof(path), "/smpi-buffer-%06x", i);
178     file_descriptor = shm_open(path, O_RDWR | O_CREAT | O_EXCL, S_IRUSR | S_IWUSR);
179     if (file_descriptor != -1 || errno != EEXIST) {
180       prev_val = i;
181       break;
182     }
183   }
184   if (file_descriptor < 0) {
185     if (errno == EMFILE) {
186       xbt_die("Impossible to create temporary file for memory mapping: %s\n\
187 The open() system call failed with the EMFILE error code (too many files). \n\n\
188 This means that you reached the system limits concerning the amount of files per process. \
189 This is not a surprise if you are trying to virtualize many processes on top of SMPI. \
190 Don't panic -- you should simply increase your system limits and try again. \n\n\
191 First, check what your limits are:\n\
192   cat /proc/sys/fs/file-max # Gives you the system-wide limit\n\
193   ulimit -Hn                # Gives you the per process hard limit\n\
194   ulimit -Sn                # Gives you the per process soft limit\n\
195   cat /proc/self/limits     # Displays any per-process limitation (including the one given above)\n\n\
196 If one of these values is less than the amount of MPI processes that you try to run, then you got the explanation of this error. \
197 Ask the Internet about tutorials on how to increase the files limit such as: https://rtcamp.com/tutorials/linux/increase-open-files-limit/",
198               strerror(errno));
199     }
200     xbt_die("Impossible to create temporary file for memory mapping: %s", strerror(errno));
201   }
202
203   status = ftruncate(file_descriptor, smpi_data_exe_size);
204   if (status)
205     xbt_die("Impossible to set the size of the temporary file for memory mapping");
206
207   /* Ask for a free region */
208   address = mmap(nullptr, smpi_data_exe_size, PROT_RW, MAP_SHARED, file_descriptor, 0);
209   if (address == MAP_FAILED)
210     xbt_die("Couldn't find a free region for memory mapping");
211
212   status = shm_unlink(path);
213   if (status)
214     xbt_die("Impossible to unlink temporary file for memory mapping");
215
216   // initialize the values
217   asan_safe_memcpy(address, smpi_data_exe_copy, smpi_data_exe_size);
218
219   // store the address of the mapping for further switches
220   smpi_privatization_regions.emplace_back(s_smpi_privatization_region_t{address, file_descriptor});
221
222   return &smpi_privatization_regions.back();
223 }
224
225 void smpi_destroy_global_memory_segments(){
226   if (smpi_data_exe_size == 0) // no need to switch
227     return;
228 #if HAVE_PRIVATIZATION
229   for (auto const& region : smpi_privatization_regions) {
230     if (munmap(region.address, smpi_data_exe_size) < 0)
231       XBT_WARN("Unmapping of fd %d failed: %s", region.file_descriptor, strerror(errno));
232     close(region.file_descriptor);
233   }
234   smpi_privatization_regions.clear();
235   ::operator delete(smpi_data_exe_copy);
236 #endif
237 }
238
239 static std::vector<unsigned char> sendbuffer;
240 static std::vector<unsigned char> recvbuffer;
241
242 //allocate a single buffer for all sends, growing it if needed
243 unsigned char* smpi_get_tmp_sendbuffer(size_t size)
244 {
245   if (not smpi_process()->replaying())
246     return new unsigned char[size];
247   // FIXME: a resize() may invalidate a previous pointer. Maybe we need to handle a queue of buffers with a reference
248   // counter. The same holds for smpi_get_tmp_recvbuffer.
249   if (sendbuffer.size() < size)
250     sendbuffer.resize(size);
251   return sendbuffer.data();
252 }
253
254 //allocate a single buffer for all recv
255 unsigned char* smpi_get_tmp_recvbuffer(size_t size)
256 {
257   if (not smpi_process()->replaying())
258     return new unsigned char[size];
259   if (recvbuffer.size() < size)
260     recvbuffer.resize(size);
261   return recvbuffer.data();
262 }
263
264 void smpi_free_tmp_buffer(const unsigned char* buf)
265 {
266   if (not smpi_process()->replaying())
267     delete[] buf;
268 }
269
270 void smpi_free_replay_tmp_buffers()
271 {
272   std::vector<unsigned char>().swap(sendbuffer);
273   std::vector<unsigned char>().swap(recvbuffer);
274 }