Logo AND Algorithmique Numérique Distribuée

Public GIT Repository
[mc] Give the real type of mc_heap/std_heap (xbt_mheap_t, not void*)
[simgrid.git] / src / mc / mc_page_snapshot.cpp
1 #include "mc_page_store.h"
2 #include "mc_mmu.h"
3 #include "mc_private.h"
4
5 #include <xbt/mmalloc.h>
6
7 #define SOFT_DIRTY_BIT_NUMBER 55
8 #define SOFT_DIRTY (((uint64_t)1) << SOFT_DIRTY_BIT_NUMBER)
9
10 extern "C" {
11
12 // ***** Region management:
13
14 /** @brief Take a per-page snapshot of a region
15  *
16  *  @param data            The start of the region (must be at the beginning of a page)
17  *  @param pag_count       Number of pages of the region
18  *  @param pagemap         Linux kernel pagemap values fot this region (or NULL)
19  *  @param reference_pages Snapshot page numbers of the previous soft_dirty_reset (or NULL)
20  *  @return                Snapshot page numbers of this new snapshot
21  */
22 size_t* mc_take_page_snapshot_region(void* data, size_t page_count, uint64_t* pagemap, size_t* reference_pages)
23 {
24   size_t* pagenos = (size_t*) malloc(page_count * sizeof(size_t));
25
26   for (size_t i=0; i!=page_count; ++i) {
27     bool softclean = pagemap && !(pagemap[i] & SOFT_DIRTY);
28     if (softclean && reference_pages) {
29       // The page is softclean, it is the same page as the reference page:
30       pagenos[i] = reference_pages[i];
31       mc_model_checker->pages->ref_page(reference_pages[i]);
32     } else {
33       // Otherwise, we need to store the page the hard way
34       // (by reading its content):
35       void* page = (char*) data + (i << xbt_pagebits);
36       pagenos[i] = mc_model_checker->pages->store_page(page);
37     }
38   }
39
40   return pagenos;
41 }
42
43 void mc_free_page_snapshot_region(size_t* pagenos, size_t page_count)
44 {
45   for (size_t i=0; i!=page_count; ++i) {
46     mc_model_checker->pages->unref_page(pagenos[i]);
47   }
48 }
49
50 /** @brief Restore a snapshot of a region
51  *
52  *  If possible, the restoration will be incremental
53  *  (the modified pages will not be touched).
54  *
55  *  @param start_addr
56  *  @param page_count       Number of pages of the region
57  *  @param pagenos
58  *  @param pagemap         Linux kernel pagemap values fot this region (or NULL)
59  *  @param reference_pages Snapshot page numbers of the previous soft_dirty_reset (or NULL)
60  */
61 void mc_restore_page_snapshot_region(void* start_addr, size_t page_count, size_t* pagenos, uint64_t* pagemap, size_t* reference_pagenos)
62 {
63   for (size_t i=0; i!=page_count; ++i) {
64
65     bool softclean = pagemap && !(pagemap[i] & SOFT_DIRTY);
66     if (softclean && reference_pagenos && pagenos[i] == reference_pagenos[i]) {
67       // The page is softclean and is the same as the reference one:
68       // the page is already in the target state.
69       continue;
70     }
71
72     // Otherwise, copy the page:
73     void* target_page = mc_page_from_number(start_addr, i);
74     const void* source_page = mc_model_checker->pages->get_page(pagenos[i]);
75     memcpy(target_page, source_page, xbt_pagesize);
76   }
77 }
78
79 // ***** Soft dirty tracking
80
81 /** @brief Like pread() but without partial reads */
82 static size_t pread_whole(int fd, void* buf, size_t count, off_t offset) {
83   size_t res = 0;
84
85   char* data = (char*) buf;
86   while(count) {
87     ssize_t n = pread(fd, buf, count, offset);
88     // EOF
89     if (n==0)
90       return res;
91
92     // Error (or EINTR):
93     if (n==-1) {
94       if (errno == EINTR)
95         continue;
96       else
97         return -1;
98     }
99
100     // It might be a partial read:
101     count -= n;
102     data += n;
103     offset += n;
104     res += n;
105   }
106
107   return res;
108 }
109
110 static inline  __attribute__ ((always_inline))
111 void mc_ensure_fd(int* fd, const char* path, int flags) {
112   if (*fd != -1)
113     return;
114   *fd = open(path, flags);
115   if (*fd == -1) {
116     xbt_die("Could not open file %s", path);
117   }
118 }
119
120 /** @brief Reset the soft-dirty bits
121  *
122  *  This is done after checkpointing and after checkpoint restoration
123  *  (if per page checkpoiting is used) in order to know which pages were
124  *  modified.
125  *
126  *  See https://www.kernel.org/doc/Documentation/vm/soft-dirty.txt
127  * */
128 void mc_softdirty_reset() {
129   mc_ensure_fd(&mc_model_checker->fd_clear_refs, "/proc/self/clear_refs", O_WRONLY|O_CLOEXEC);
130   if( ::write(mc_model_checker->fd_clear_refs, "4\n", 2) != 2) {
131     xbt_die("Could not reset softdirty bits");
132   }
133 }
134
135 /** @brief Read memory page informations
136  *
137  *  For each virtual memory page of the process,
138  *  /proc/self/pagemap provides a 64 bit field of information.
139  *  We are interested in the soft-dirty bit: with this we can track which
140  *  pages were modified between snapshots/restorations and avoid
141  *  copying data which was not modified.
142  *
143  *  See https://www.kernel.org/doc/Documentation/vm/pagemap.txt
144  *
145  *  @param pagemap    Output buffer for pagemap informations
146  *  @param start_addr Address of the first page
147  *  @param page_count Number of pages
148  */
149 static void mc_read_pagemap(uint64_t* pagemap, size_t page_start, size_t page_count)
150 {
151   mc_ensure_fd(&mc_model_checker->fd_pagemap, "/proc/self/pagemap", O_RDONLY|O_CLOEXEC);
152   size_t bytesize = sizeof(uint64_t) * page_count;
153   off_t offset = sizeof(uint64_t) * page_start;
154   if (pread_whole(mc_model_checker->fd_pagemap, pagemap, bytesize, offset) != bytesize) {
155     xbt_die("Could not read pagemap");
156   }
157 }
158
159 // ***** High level API
160
161 mc_mem_region_t mc_region_new_sparse(int type, void *start_addr, void* permanent_addr, size_t size, mc_mem_region_t ref_reg)
162 {
163   mc_mem_region_t new_reg = xbt_new(s_mc_mem_region_t, 1);
164
165   new_reg->start_addr = start_addr;
166   new_reg->permanent_addr = permanent_addr;
167   new_reg->data = NULL;
168   new_reg->size = size;
169   new_reg->page_numbers = NULL;
170
171   xbt_assert((((uintptr_t)start_addr) & (xbt_pagesize-1)) == 0,
172     "Not at the beginning of a page");
173   xbt_assert((((uintptr_t)permanent_addr) & (xbt_pagesize-1)) == 0,
174     "Not at the beginning of a page");
175   size_t page_count = mc_page_count(size);
176
177   uint64_t* pagemap = NULL;
178   if (_sg_mc_soft_dirty && mc_model_checker->parent_snapshot) {
179       pagemap = (uint64_t*) mmalloc_no_memset(mc_heap, sizeof(uint64_t) * page_count);
180       mc_read_pagemap(pagemap, mc_page_number(NULL, permanent_addr), page_count);
181   }
182
183   // Take incremental snapshot:
184   new_reg->page_numbers = mc_take_page_snapshot_region(permanent_addr, page_count, pagemap,
185     ref_reg==NULL ? NULL : ref_reg->page_numbers);
186
187   if(pagemap) {
188     mfree(mc_heap, pagemap);
189   }
190   return new_reg;
191 }
192
193 void mc_region_restore_sparse(mc_mem_region_t reg, mc_mem_region_t ref_reg)
194 {
195   xbt_assert((((uintptr_t)reg->permanent_addr) & (xbt_pagesize-1)) == 0,
196     "Not at the beginning of a page");
197   size_t page_count = mc_page_count(reg->size);
198
199   uint64_t* pagemap = NULL;
200
201   // Read soft-dirty bits if necessary in order to know which pages have changed:
202   if (_sg_mc_soft_dirty && mc_model_checker->parent_snapshot) {
203     pagemap = (uint64_t*) mmalloc_no_memset(mc_heap, sizeof(uint64_t) * page_count);
204     mc_read_pagemap(pagemap, mc_page_number(NULL, reg->permanent_addr), page_count);
205   }
206
207   // Incremental per-page snapshot restoration:
208   mc_restore_page_snapshot_region(reg->permanent_addr, page_count, reg->page_numbers,
209     pagemap, ref_reg ? ref_reg->page_numbers : NULL);
210
211   if(pagemap) {
212     free(pagemap);
213   }
214 }
215
216 }