Logo AND Algorithmique Numérique Distribuée

Public GIT Repository
cosmetics (codefactor+coding style)
[simgrid.git] / src / smpi / internals / smpi_memory.cpp
1 /* Copyright (c) 2015-2019. The SimGrid Team. All rights reserved.          */
2
3 /* This program is free software; you can redistribute it and/or modify it
4  * under the terms of the license (GNU LGPL) which comes with this package. */
5
6 #include <algorithm>
7 #include <cerrno>
8 #include <climits>
9 #include <cstdint>
10 #include <cstdio>
11 #include <cstdlib>
12 #include <cstring>
13 #include <deque>
14 #include <fcntl.h>
15 #include <sys/stat.h>
16 #include <sys/types.h>
17 #include <vector>
18
19 #ifndef WIN32
20 #include <sys/mman.h>
21 #include <unistd.h>
22
23 #include "src/internal_config.h"
24 #include "src/xbt/memory_map.hpp"
25
26 #include "private.hpp"
27 #include "src/smpi/include/smpi_actor.hpp"
28
29 XBT_LOG_NEW_DEFAULT_SUBCATEGORY(smpi_memory, smpi, "Memory layout support for SMPI");
30
31 int smpi_loaded_page      = -1;
32 char* smpi_data_exe_start = nullptr;
33 int smpi_data_exe_size    = 0;
34 SmpiPrivStrategies smpi_privatize_global_variables;
35 static void* smpi_data_exe_copy;
36
37 // Initialized by smpi_prepare_global_memory_segment().
38 static std::vector<simgrid::xbt::VmMap> initial_vm_map;
39
40 // We keep a copy of all the privatization regions: We can then delete everything easily by iterating over this
41 // collection and nothing can be leaked. We could also iterate over all actors but we would have to be diligent when two
42 // actors use the same privatization region (so, smart pointers would have to be used etc.)
43 // Use a std::deque so that pointers remain valid after push_back().
44 static std::deque<s_smpi_privatization_region_t> smpi_privatization_regions;
45
46 static constexpr int PROT_RWX = PROT_READ | PROT_WRITE | PROT_EXEC;
47 static constexpr int PROT_RW  = PROT_READ | PROT_WRITE;
48
49 /** Take a snapshot of the process' memory map.
50  */
51 void smpi_prepare_global_memory_segment()
52 {
53   initial_vm_map = simgrid::xbt::get_memory_map(getpid());
54 }
55
56 static void smpi_get_executable_global_size()
57 {
58   char buffer[PATH_MAX];
59   char* full_name = realpath(xbt_binary_name, buffer);
60   xbt_assert(full_name != nullptr, "Could not resolve real path of binary file '%s'", xbt_binary_name);
61
62   std::vector<simgrid::xbt::VmMap> map = simgrid::xbt::get_memory_map(getpid());
63   for (auto i = map.begin(); i != map.end() ; ++i) {
64     // TODO, In practice, this implementation would not detect a completely
65     // anonymous data segment. This does not happen in practice, however.
66
67     // File backed RW entry:
68     if (i->pathname == full_name && (i->prot & PROT_RWX) == PROT_RW) {
69       smpi_data_exe_start = (char*)i->start_addr;
70       smpi_data_exe_size  = i->end_addr - i->start_addr;
71       /* Here we are making the assumption that a suitable empty region
72          following the rw- area is the end of the data segment. It would
73          be better to check with the size of the data segment. */
74       ++i;
75       if (i != map.end() && i->pathname.empty() && (i->prot & PROT_RWX) == PROT_RW &&
76           (char*)i->start_addr == smpi_data_exe_start + smpi_data_exe_size) {
77         // Only count the portion of this region not present in the initial map.
78         auto found = std::find_if(initial_vm_map.begin(), initial_vm_map.end(), [&i](const simgrid::xbt::VmMap& m) {
79           return i->start_addr <= m.start_addr && m.start_addr < i->end_addr;
80         });
81         auto end_addr      = (found == initial_vm_map.end() ? i->end_addr : found->start_addr);
82         smpi_data_exe_size = (char*)end_addr - smpi_data_exe_start;
83       }
84       return;
85     }
86   }
87   xbt_die("Did not find my data segment.");
88 }
89 #endif
90
91 #if HAVE_SANITIZER_ADDRESS
92 #include <sanitizer/asan_interface.h>
93 static void* asan_safe_memcpy(void* dest, void* src, size_t n)
94 {
95   char* psrc  = static_cast<char*>(src);
96   char* pdest = static_cast<char*>(dest);
97   for (size_t i = 0; i < n;) {
98     while (i < n && __asan_address_is_poisoned(psrc + i))
99       ++i;
100     if (i < n) {
101       char* p  = static_cast<char*>(__asan_region_is_poisoned(psrc + i, n - i));
102       size_t j = p ? (p - psrc) : n;
103       memcpy(pdest + i, psrc + i, j - i);
104       i = j;
105     }
106   }
107   return dest;
108 }
109 #else
110 #define asan_safe_memcpy(dest, src, n) memcpy((dest), (src), (n))
111 #endif
112
113 /**
114  * @brief Uses shm_open to get a temporary shm, and returns its file descriptor.
115  */
116 int smpi_temp_shm_get()
117 {
118   constexpr unsigned VAL_MASK = 0xffffffffUL;
119   static unsigned prev_val    = VAL_MASK;
120   char shmname[32]; // cannot be longer than PSHMNAMLEN = 31 on macOS (shm_open raises ENAMETOOLONG otherwise)
121   int fd;
122
123   for (unsigned i = (prev_val + 1) & VAL_MASK; i != prev_val; i = (i + 1) & VAL_MASK) {
124     snprintf(shmname, sizeof(shmname), "/smpi-buffer-%016x", i);
125     fd = shm_open(shmname, O_RDWR | O_CREAT | O_EXCL, S_IRUSR | S_IWUSR);
126     if (fd != -1 || errno != EEXIST) {
127       prev_val = i;
128       break;
129     }
130   }
131   if (fd < 0) {
132     if (errno == EMFILE) {
133       xbt_die("Impossible to create temporary file for memory mapping: %s\n\
134 The shm_open() system call failed with the EMFILE error code (too many files). \n\n\
135 This means that you reached the system limits concerning the amount of files per process. \
136 This is not a surprise if you are trying to virtualize many processes on top of SMPI. \
137 Don't panic -- you should simply increase your system limits and try again. \n\n\
138 First, check what your limits are:\n\
139   cat /proc/sys/fs/file-max # Gives you the system-wide limit\n\
140   ulimit -Hn                # Gives you the per process hard limit\n\
141   ulimit -Sn                # Gives you the per process soft limit\n\
142   cat /proc/self/limits     # Displays any per-process limitation (including the one given above)\n\n\
143 If one of these values is less than the amount of MPI processes that you try to run, then you got the explanation of this error. \
144 Ask the Internet about tutorials on how to increase the files limit such as: https://rtcamp.com/tutorials/linux/increase-open-files-limit/",
145               strerror(errno));
146     }
147     xbt_die("Impossible to create temporary file for memory mapping. shm_open: %s", strerror(errno));
148   }
149   XBT_DEBUG("Got temporary shm %s (fd = %d)", shmname, fd);
150   if (shm_unlink(shmname) < 0)
151     XBT_WARN("Could not early unlink %s. shm_unlink: %s", shmname, strerror(errno));
152   return fd;
153 }
154
155 /**
156  * @brief Mmap a region of size bytes from temporary shm with file descriptor fd.
157  */
158 void* smpi_temp_shm_mmap(int fd, size_t size)
159 {
160   struct stat st;
161   if (fstat(fd, &st) != 0)
162     xbt_die("Could not stat fd %d: %s", fd, strerror(errno));
163   if (static_cast<off_t>(size) > st.st_size && ftruncate(fd, static_cast<off_t>(size)) != 0)
164     xbt_die("Could not truncate fd %d to %zu: %s", fd, size, strerror(errno));
165   void* mem = mmap(nullptr, size, PROT_READ | PROT_WRITE, MAP_SHARED, fd, 0);
166   if (mem == MAP_FAILED) {
167     xbt_die("Failed to map fd %d with size %zu: %s\n"
168             "If you are running a lot of ranks, you may be exceeding the amount of mappings allowed per process.\n"
169             "On Linux systems, change this value with sudo sysctl -w vm.max_map_count=newvalue (default value: 65536)\n"
170             "Please see "
171             "https://simgrid.org/doc/latest/Configuring_SimGrid.html#configuring-the-user-code-virtualization for more "
172             "information.",
173             fd, size, strerror(errno));
174   }
175   return mem;
176 }
177
178 /** Map a given SMPI privatization segment (make a SMPI process active)
179  *
180  *  When doing a state restoration, the state of the restored variables  might not be consistent with the state of the
181  *  virtual memory. In this case, we to change the data segment.
182  */
183 void smpi_switch_data_segment(simgrid::s4u::ActorPtr actor)
184 {
185   if (smpi_loaded_page == actor->get_pid()) // no need to switch, we've already loaded the one we want
186     return;
187
188   if (smpi_data_exe_size == 0) // no need to switch
189     return;
190
191 #if HAVE_PRIVATIZATION
192   // FIXME, cross-process support (mmap across process when necessary)
193   XBT_DEBUG("Switching data frame to the one of process %ld", actor->get_pid());
194   simgrid::smpi::ActorExt* process = smpi_process_remote(actor);
195   int current                     = process->privatized_region()->file_descriptor;
196   void* tmp = mmap(TOPAGE(smpi_data_exe_start), smpi_data_exe_size, PROT_RW, MAP_FIXED | MAP_SHARED, current, 0);
197   if (tmp != TOPAGE(smpi_data_exe_start))
198     xbt_die("Couldn't map the new region (errno %d): %s", errno, strerror(errno));
199   smpi_loaded_page = actor->get_pid();
200 #endif
201 }
202
203 /**
204  * @brief Makes a backup of the segment in memory that stores the global variables of a process.
205  *        This backup is then used to initialize the global variables for every single
206  *        process that is added, regardless of the progress of the simulation.
207  */
208 void smpi_backup_global_memory_segment()
209 {
210 #if HAVE_PRIVATIZATION
211   smpi_get_executable_global_size();
212   initial_vm_map.clear();
213   initial_vm_map.shrink_to_fit();
214
215   XBT_DEBUG("bss+data segment found : size %d starting at %p", smpi_data_exe_size, smpi_data_exe_start);
216
217   if (smpi_data_exe_size == 0) { // no need to do anything as global variables don't exist
218     smpi_privatize_global_variables = SmpiPrivStrategies::NONE;
219     return;
220   }
221
222   smpi_data_exe_copy = ::operator new(smpi_data_exe_size);
223   // Make a copy of the data segment. This clean copy is retained over the whole runtime
224   // of the simulation and can be used to initialize a dynamically added, new process.
225   asan_safe_memcpy(smpi_data_exe_copy, TOPAGE(smpi_data_exe_start), smpi_data_exe_size);
226 #else /* ! HAVE_PRIVATIZATION */
227   xbt_die("You are trying to use privatization on a system that does not support it. Don't.");
228 #endif
229 }
230
231 // Initializes the memory mapping for a single process and returns the privatization region
232 smpi_privatization_region_t smpi_init_global_memory_segment_process()
233 {
234   int file_descriptor = smpi_temp_shm_get();
235
236   // ask for a free region
237   void* address = smpi_temp_shm_mmap(file_descriptor, smpi_data_exe_size);
238
239   // initialize the values
240   asan_safe_memcpy(address, smpi_data_exe_copy, smpi_data_exe_size);
241
242   // store the address of the mapping for further switches
243   smpi_privatization_regions.emplace_back(s_smpi_privatization_region_t{address, file_descriptor});
244
245   return &smpi_privatization_regions.back();
246 }
247
248 void smpi_destroy_global_memory_segments(){
249   if (smpi_data_exe_size == 0) // no need to switch
250     return;
251 #if HAVE_PRIVATIZATION
252   for (auto const& region : smpi_privatization_regions) {
253     if (munmap(region.address, smpi_data_exe_size) < 0)
254       XBT_WARN("Unmapping of fd %d failed: %s", region.file_descriptor, strerror(errno));
255     close(region.file_descriptor);
256   }
257   smpi_privatization_regions.clear();
258   ::operator delete(smpi_data_exe_copy);
259 #endif
260 }
261
262 static std::vector<unsigned char> sendbuffer;
263 static std::vector<unsigned char> recvbuffer;
264
265 //allocate a single buffer for all sends, growing it if needed
266 unsigned char* smpi_get_tmp_sendbuffer(size_t size)
267 {
268   if (not smpi_process()->replaying())
269     return new unsigned char[size];
270   // FIXME: a resize() may invalidate a previous pointer. Maybe we need to handle a queue of buffers with a reference
271   // counter. The same holds for smpi_get_tmp_recvbuffer.
272   if (sendbuffer.size() < size)
273     sendbuffer.resize(size);
274   return sendbuffer.data();
275 }
276
277 //allocate a single buffer for all recv
278 unsigned char* smpi_get_tmp_recvbuffer(size_t size)
279 {
280   if (not smpi_process()->replaying())
281     return new unsigned char[size];
282   if (recvbuffer.size() < size)
283     recvbuffer.resize(size);
284   return recvbuffer.data();
285 }
286
287 void smpi_free_tmp_buffer(const unsigned char* buf)
288 {
289   if (not smpi_process()->replaying())
290     delete[] buf;
291 }
292
293 void smpi_free_replay_tmp_buffers()
294 {
295   std::vector<unsigned char>().swap(sendbuffer);
296   std::vector<unsigned char>().swap(recvbuffer);
297 }