Uses the Logger.print function instead of Printf.eprintf
[SXSI/xpathcomp.git] / src / runtime.ml
index 8280308..67d7f43 100644 (file)
@@ -1,5 +1,5 @@
 INCLUDE "debug.ml"
-INCLUDE "trace.ml"
+INCLUDE "log.ml"
 INCLUDE "utils.ml"
 
 open Format
@@ -9,7 +9,8 @@ module type S = sig
   val top_down_run : Ata.t -> Tree.t -> Tree.node -> result_set
   val bottom_up_run : Ata.t -> Tree.t -> Compile.text_query * string -> result_set
   val grammar_run : Ata.t -> Grammar2.t -> unit -> result_set
-
+  val naive_top_down_run : Ata.t -> Tree.t -> Tree.node -> result_set
+  val twopass_top_down_run : Ata.t -> Tree.t -> Tree.node -> result_set
 end
 
 module Make (U : ResJIT.S) : S with type result_set = U.NS.t =
@@ -42,6 +43,7 @@ module Make (U : ResJIT.S) : S with type result_set = U.NS.t =
 
 
     let eval_trans auto s1 s2 trans =
+      LOG(__ "top-down-run" 3 "Evaluating transition list:@\n%a" Translist.print trans);
       Translist.fold
        (fun t ((a_st, a_op, a_todo) as acc)->
           let q, _, m, f = Transition.node t in
@@ -68,15 +70,22 @@ module Make (U : ResJIT.S) : S with type result_set = U.NS.t =
 
        let dummy _ _ _ _ _ = failwith "Uninitialized L3JIT"
 
-       let create () = Cache.Lvl3.create 1024 dummy
+
+       let show_stats a =
+         let count = ref 0 in
+         Cache.Lvl3.iteri (fun _ _ _ _ b -> if not b then incr count) a;
+         Logger.print err_formatter "@?L3JIT: %i used entries@\n@?" !count
+       let create () =
+         let v = Cache.Lvl3.create 1024 dummy in
+         if !Options.verbose then at_exit (fun () -> show_stats v);
+         v
+
        let find t tlist s1 s2 =
          Cache.Lvl3.find t
            (Uid.to_int s2.StateSet.Node.id)
            (Uid.to_int s1.StateSet.Node.id)
            (Uid.to_int tlist.Translist.Node.id)
 
-
-
        let add t tlist s1 s2 v =
          Cache.Lvl3.add t
            (Uid.to_int s2.StateSet.Node.id)
@@ -88,13 +97,13 @@ module Make (U : ResJIT.S) : S with type result_set = U.NS.t =
          let orig_s1, orig_s2 =
            Translist.fold (fun t (a1, a2) ->
                          let _, _, _, f = Transition.node t in
-                         let (_, _, fs1), (_, _, fs2) = Formula.st f in
+                         let fs1, fs2 = Formula.st f in
                            (StateSet.union a1 fs1, StateSet.union a2 fs2)
                       ) trl (StateSet.empty, StateSet.empty)
          in
          let ns1 = StateSet.inter s1 orig_s1
          and ns2 = StateSet.inter s2 orig_s2 in
-         let res, ops, todo = eval_trans auto ns1 ns2 trl in
+         let res, ops, todo = eval_trans auto orig_s1 orig_s2 trl in
          let code, not_marking = ResJIT.compile ops in
          let todo_code, todo_notmarking =
            List.fold_left (fun (l, b) (p, q, o) -> let c, b' = ResJIT.compile o in
@@ -158,19 +167,19 @@ module Make (U : ResJIT.S) : S with type result_set = U.NS.t =
 
        let cache_apply cache auto tlist s1 s2 =
          let f = gen_code auto tlist s1 s2 in
-         TRACE("grammar", 2, __ "Inserting: %i, %a, %a\n%!"
+         LOG(__ "grammar" 2 "Inserting: %i, %a, %a\n%!"
            (Uid.to_int tlist.Translist.Node.id) StateSet.print s1 StateSet.print s2);
          add cache tlist s1 s2 f; f
       end
 
 DEFINE LOOP (t, states, ctx) = (
-  let _t = (t) in
-  TRACE("top-down-run", 3,
-       __ "Entering node %i with loop (tag %s, context %i) with states %a\n%!"
-         (Node.to_int _t)
-         (Tag.to_string (Tree.tag tree _t))
-         (Node.to_int (ctx))
-         (StateSet.print) (states));
+  let _t = t in
+  LOG(__ "top-down-run" 3
+      "Entering node %i with loop (tag %s, context %i) with states %a"
+       (Node.to_int _t)
+       (Tag.to_string (Tree.tag tree _t))
+       (Node.to_int (ctx))
+       (StateSet.print) (states));
   if _t == Tree.nil then nil_res
   else
     let tag = Tree.tag tree _t in
@@ -180,8 +189,8 @@ DEFINE LOOP (t, states, ctx) = (
 
 DEFINE LOOP_TAG (t, states, tag, ctx) = (
   let _t = (t) in (* to avoid duplicating expression t *)
-  TRACE("top-down-run", 3,
-       __ "Entering node %i with loop_tag (tag %s, context %i) with states %a\n%!"
+  LOG(__ "top-down-run" 3
+       "Entering node %i with loop_tag (tag %s, context %i) with states %a"
          (Node.to_int _t)
          (Tag.to_string (tag))
          (Node.to_int (ctx))
@@ -191,13 +200,19 @@ DEFINE LOOP_TAG (t, states, tag, ctx) = (
     l2jit_dispatch
       _t (tag) (states) (ctx) (L2JIT.find cache2 (tag) (states)))
 
-
     let top_down_run auto tree root states ctx =
       let res_len = StateSet.max_elt auto.states + 1 in
       let empty_slot = Array.create res_len U.NS.empty in
       let nil_res = auto.bottom_states, empty_slot in
       let cache3 = L3JIT.create () in
-
+      let mark_subtree  =
+       fun s subtree -> if subtree != U.NS.empty then
+         let r = Array.copy empty_slot in
+         r.(auto.last) <- subtree;
+         s,r
+       else
+         s,empty_slot
+      in
       let l3jit_dispatch trl s1 s2 t sl1 sl2 =
        let f = L3JIT.find cache3 trl s1 s2 in
        if f == L3JIT.dummy then (L3JIT.cache_apply cache3 auto trl s1 s2) empty_slot sl1 sl2 tree t
@@ -206,33 +221,40 @@ DEFINE LOOP_TAG (t, states, tag, ctx) = (
       in
       let cache2 = L2JIT.create () in
 
-
       let rec l2jit_dispatch t tag states ctx opcode =
        match opcode with
          | L2JIT.RETURN -> nil_res
          | L2JIT.CACHE ->
-             let opcode = L2JIT.compile cache2 auto tree tag states in
-               l2jit_dispatch t tag states ctx opcode
+           LOG(__ "top-down-run" 3
+               "Top-down cache miss for configuration %s %a"
+                 (Tag.to_string tag) StateSet.print states);
+           let opcode = L2JIT.compile cache2 auto tree tag states in
+           l2jit_dispatch t tag states ctx opcode
 
          | L2JIT.LEFT (tr_list, instr) ->
              let res1, slot1 =
-               l2jit_dispatch_instr t tag states (Tree.closing tree t) instr
+               l2jit_dispatch_instr t (Tree.closing tree t) instr
              in
                l3jit_dispatch tr_list res1 auto.bottom_states t slot1 empty_slot
 
          | L2JIT.RIGHT (tr_list, instr) ->
-           let res2, slot2 = l2jit_dispatch_instr t tag states ctx instr in
-             l3jit_dispatch tr_list auto.bottom_states res2 t empty_slot slot2
+           let res2, slot2 =
+             l2jit_dispatch_instr t ctx instr
+           in
+           l3jit_dispatch tr_list auto.bottom_states res2 t empty_slot slot2
 
          | L2JIT.BOTH (tr_list, instr1, instr2) ->
              let res1, slot1 =
-               l2jit_dispatch_instr t tag states (Tree.closing tree t) instr1
+               l2jit_dispatch_instr t (Tree.closing tree t) instr1
+             in
+             let res2, slot2 =
+               l2jit_dispatch_instr t ctx instr2
              in
-             let res2, slot2 = l2jit_dispatch_instr t tag states ctx instr2 in
                l3jit_dispatch tr_list res1 res2 t slot1 slot2
 
-    and l2jit_dispatch_instr t tag states ctx instr =
-      match instr with
+    and l2jit_dispatch_instr t ctx instr =
+       match instr with
+       | L2JIT.NOP () -> nil_res
        | L2JIT.FIRST_CHILD s -> LOOP ((Tree.first_child tree t), s, ctx)
        | L2JIT.NEXT_SIBLING s -> LOOP ((Tree.next_sibling tree t), s, ctx)
 
@@ -240,49 +262,34 @@ DEFINE LOOP_TAG (t, states, tag, ctx) = (
        | L2JIT.NEXT_ELEMENT s -> LOOP ((Tree.next_element tree t), s, ctx)
 
        | L2JIT.TAGGED_DESCENDANT (s, tag) ->
-           LOOP_TAG ((Tree.tagged_descendant tree t tag), s, tag, ctx)
+         LOOP_TAG ((Tree.tagged_descendant tree t tag), s, tag, ctx)
 
        | L2JIT.TAGGED_FOLLOWING (s, tag) ->
-           LOOP_TAG((Tree.tagged_following_before tree t tag ctx), s, tag, ctx)
+         LOOP_TAG((Tree.tagged_following_before tree t tag ctx), s, tag, ctx)
 
        | L2JIT.SELECT_DESCENDANT (s, _, us) ->
-           LOOP((Tree.select_descendant tree t us), s, ctx)
+         LOOP((Tree.select_descendant tree t us), s, ctx)
 
        | L2JIT.SELECT_FOLLOWING (s, pt, us) ->
-           LOOP ((Tree.select_following_before tree t us ctx), s, ctx)
+         LOOP ((Tree.select_following_before tree t us ctx), s, ctx)
 
        | L2JIT.TAGGED_CHILD (s, tag) ->
-           LOOP_TAG((Tree.tagged_child tree t tag), s, tag, ctx)
+         LOOP_TAG((Tree.tagged_child tree t tag), s, tag, ctx)
 
        | L2JIT.TAGGED_FOLLOWING_SIBLING (s, tag) ->
-           LOOP_TAG((Tree.tagged_following_sibling tree t tag), s, tag, ctx)
+         LOOP_TAG((Tree.tagged_following_sibling tree t tag), s, tag, ctx)
 
        | L2JIT.SELECT_CHILD (s, _, us) ->
-           LOOP ((Tree.select_child tree t us), s, ctx)
+         LOOP ((Tree.select_child tree t us), s, ctx)
 
        | L2JIT.SELECT_FOLLOWING_SIBLING (s, _, us) ->
-           LOOP ((Tree.select_following_sibling tree t us), s, ctx)
+         LOOP ((Tree.select_following_sibling tree t us), s, ctx)
 
        | L2JIT.TAGGED_SUBTREE(s, tag) ->
-
-         let count = U.NS.subtree_tags tree t tag in
-         if count != U.NS.empty then
-           let r = Array.copy empty_slot in
-           r.(auto.last) <- count;
-           s,r
-         else
-           s,empty_slot
+         mark_subtree s (U.NS.subtree_tags tree t tag)
 
        | L2JIT.ELEMENT_SUBTREE(s) ->
-
-         let count = U.NS.subtree_elements tree t in
-         if count != U.NS.empty then
-           let r = Array.copy empty_slot in
-           r.(auto.last) <- count;
-           s,r
-         else
-           s,empty_slot
-
+         mark_subtree s (U.NS.subtree_elements tree t)
       in
       let r = LOOP (root, states, ctx) in
       (*L3JIT.stats err_formatter cache3; *)
@@ -301,24 +308,16 @@ DEFINE LOOP_TAG (t, states, tag, ctx) = (
 
     (*** Bottom-up evaluation function **)
 
-    let ns_print fmt t =
-      Format.fprintf fmt "{ ";
-      U.NS.iter begin fun node ->
-       Format.fprintf fmt "%a " Node.print node;
-      end t;
-      Format.fprintf fmt "}"
-
-    let slot_print fmt t =
-      Array.iteri begin fun state ns ->
-       Format.eprintf "%a -> %a\n" State.print state ns_print ns;
-      end t
-
-
     let eval_trans auto tree parent res1 res2 = assert false
 
+    let rec uniq = function
+      | ([] | [ _ ]) as l -> l
+      | e1 :: ((e2 :: ll) as l) -> if e1 == e2 then uniq l
+       else e1 :: e2 :: (uniq ll);;
 
     let bottom_up_run auto tree (query, pat) =
-      let leaves = Array.to_list (Tree.full_text_query query tree pat) in
+      let array = time ~msg:"Timing text query" (Tree.full_text_query query tree) pat in
+      let leaves = Array.to_list array in
       let states = auto.states in
       let res_len = (StateSet.max_elt states) + 1 in
       let empty_slot = Array.create res_len U.NS.empty in
@@ -329,7 +328,10 @@ DEFINE LOOP_TAG (t, states, tag, ctx) = (
            [] -> acc
          | node :: ll ->
            let res, lll = bottom_up_next node ll Tree.nil in
-           if (lll <> []) then Printf.eprintf "Leftover elements\n%!";
+           if (lll <> []) then
+             begin
+               eprintf "Leftover nodes: %i\n" (List.length lll);
+             end;
            res
 
       and bottom_up_next node rest stop =
@@ -399,7 +401,7 @@ let get_trans g auto tag states =
          then acc
              else
             let _, _, _, phi = Transition.node trs in
-                let (_,_,l), (_,_,r) = Formula.st phi in
+                let l, r = Formula.st phi in
                 (StateSet.union l lstates,
                  StateSet.union r rstates,
                  Translist.cons trs tacc)
@@ -503,7 +505,7 @@ let dispatch_param1 conf id2 y0 y1 =
       in
       let lambda = ref 0 in
       let rec start_loop idx states =
-       TRACE("grammar", 2, __ "Node %i\n%!" (Node.to_int idx));
+       LOG(__ "grammar" 2 "Node %i\n%!" (Node.to_int idx));
        if states == dummy_set then nil_res else
        if idx < Node.null then nil_res
        else begin
@@ -525,19 +527,19 @@ let dispatch_param1 conf id2 y0 y1 =
        if t = Node.nil || states == dummy_set then nil_res else
          let () = incr rule_counter in
          if !rule_counter land 65535 == 0 then begin Gc.minor() end;
-         let k = (t, states) in
-         let pstates = DCache.find dcache k in
-         let notfound = DCache.notfound pstates in
+(*       let k = (t, states) in*)
+(*       let pstates = DCache.find dcache k in
+         let notfound = DCache.notfound pstates in *)
          let rhs = Grammar2.get_rule g t in
          let id1 = Grammar2.get_id1 rhs in
          let id2 = Grammar2.get_id2 rhs in
          let conf = Grammar2.get_conf rhs in
-         if notfound then
+(*       if notfound then*)
            let ny0 = dispatch_param0 conf id2 y0 y1 in
            let ny1 = dispatch_param1 conf id2 y0 y1 in
            let res = dispatch_loop id1 states ny0 ny1 in
-           pstates.(0) <- res.in0;
-           pstates.(1) <- res.in1;
+(*         pstates.(0) <- res.in0;
+           pstates.(1) <- res.in1; *)
            res (*
            UCache.add ucache (t, states, fst res.out0, fst res.out1)
              res.main;
@@ -549,7 +551,7 @@ let dispatch_param1 conf id2 y0 y1 =
            { res with
              main = ((fst res.main), (U.close h (snd res.main)));
            } *)
-
+(*
            else
              let res0 = partial_loop y0 pstates.(0) in
              let res1 = partial_loop y1 pstates.(1) in
@@ -577,7 +579,7 @@ let dispatch_param1 conf id2 y0 y1 =
                out1 = res1.main;
                main = s, U.close h r;
              }
-
+*)
       and dispatch_loop id1 states ny0 ny1 =
          if Grammar2.is_non_terminal g id1 then
            rule_loop (Grammar2.non_terminal id1) states ny0 ny1
@@ -633,6 +635,206 @@ let dispatch_param1 conf id2 y0 y1 =
     ;;
 
 
+    (* Slow reference top-down implementation *)
+    let naive_top_down auto tree root states ctx =
+      let res_len = StateSet.max_elt auto.states + 1 in
+      let empty_slot = Array.create res_len U.NS.empty in
+      let nil_res = auto.bottom_states, empty_slot in
+      let cache3 = L3JIT.create () in
+      let l3jit_dispatch trl s1 s2 t sl1 sl2 =
+       let f = L3JIT.find cache3 trl s1 s2 in
+       if f == L3JIT.dummy then (L3JIT.cache_apply cache3 auto trl s1 s2) empty_slot sl1 sl2 tree t
+       else f empty_slot sl1 sl2 tree t
+      in
+      let dummy = Translist.nil, StateSet.singleton State.dummy, StateSet.singleton State.dummy in
+      let cache2 = Cache.Lvl2.create 512 dummy in
+      let rec loop t states ctx =
+       if states == StateSet.empty then nil_res
+       else if t == Tree.nil then (*StateSet.inter states auto.bottom_states, empty_slot *) nil_res
+       else
+         let tag = Tree.tag tree t in
+
+         let trans, lstates, rstates =
+           let c = Cache.Lvl2.find cache2 (Uid.to_int states.StateSet.Node.id) tag in
+           if c == dummy then
+             let c = Ata.get_trans auto states tag in
+             Cache.Lvl2.add cache2 (Uid.to_int states.StateSet.Node.id) tag c;
+             c
+           else c
+         in
+         let s1, res1 = loop (Tree.first_child tree t) lstates ctx
+         and s2, res2 = loop (Tree.next_sibling tree t) rstates ctx in
+         l3jit_dispatch trans s1 s2 t res1 res2
+      in
+      loop root states ctx
+
+
+
+
+    let naive_top_down_run auto tree root =
+      let res, slot = naive_top_down auto tree root auto.init (Tree.closing tree root) in
+      slot.(StateSet.min_elt auto.topdown_marking_states)
+
+
+
+    let eval_form auto s1 s2 f =
+      let rec loop f =
+       match Formula.expr f with
+         | Formula.False | Formula.True | Formula.Pred _ -> f
+         | Formula.Atom(`Left, b, q) ->
+             Formula.of_bool (b == (StateSet.mem q s1))
+         | Formula.Atom (`Right, b, q) ->
+             Formula.of_bool(b == (StateSet.mem q s2))
+         | Formula.Atom (`Epsilon, _, _) -> assert false
+
+         | Formula.Or(f1, f2) ->
+             let b1 = loop f1 in
+             let b2 = loop f2 in
+             Formula.or_pred b1 b2
+         | Formula.And(f1, f2) ->
+             let b1 = loop f1 in
+             let b2 = loop f2 in
+             Formula.and_pred b1 b2
+      in
+      loop f
+
+    let eval_trans auto s1 s2 trans =
+      Translist.fold
+       (fun t ((a_st, mark) as acc)->
+          let q, _, m, f = Transition.node t in
+          let form = eval_form auto s1 s2 f in
+          match Formula.expr form with
+            | Formula.True -> StateSet.add q a_st, mark || m
+            | Formula.False -> acc
+            | _ -> assert false
+       ) trans (StateSet.empty, false)
+
+
+    let set a i v =
+      LOG(__ "twopass" 2 "Setting node %i to state %a\n%!"
+       i StateSet.print v);
+      a.(i) <- v
+
+    let twopass_top_down states_array auto tree root states ctx =
+      let dummy3 = StateSet.singleton State.dummy in
+      let cache3 = Cache.Lvl3.create 512  dummy3 in
+      let dummy2 = Translist.nil, StateSet.singleton State.dummy, StateSet.singleton State.dummy in
+      let cache2 = Cache.Lvl2.create 512 dummy2 in
+      let attributes = TagSet.inj_positive (Tree.attribute_tags tree) in
+      let rec loop t states ctx =
+       if t == Tree.nil then auto.bottom_states
+       else if states == StateSet.empty then
+         let () = set states_array (Node.to_int t) auto.bottom_states in
+         auto.bottom_states
+       else
+         let tag = Tree.tag tree t in
+         LOG(__ "twopass" 2 "Traversing node %i (tag %s) in states %a\n%!" (Node.to_int t) (Tag.to_string tag)
+         StateSet.print states
+         );
+         let trans, lstates, rstates =
+           let c = Cache.Lvl2.find cache2 (Uid.to_int states.StateSet.Node.id) tag in
+           if c == dummy2 then
+             let c = Ata.get_trans ~attributes:attributes auto states tag in
+             Cache.Lvl2.add cache2 (Uid.to_int states.StateSet.Node.id) tag c;
+             c
+           else c
+         in
+         LOG(__ "twopass" 2 "\nTransitions are:\n%!");
+         LOG(__ "twopass" 2"\nTransitions are:\n%a\n%!" 
+           Translist.print trans
+         );
+         let s1 = loop (Tree.first_child tree t) lstates ctx
+         and s2 = loop (Tree.next_sibling tree t) rstates ctx in
+         let st =
+           let c = Cache.Lvl3.find cache3
+             (Uid.to_int s1.StateSet.Node.id)
+             (Uid.to_int s2.StateSet.Node.id)
+             (Uid.to_int trans.Translist.Node.id)
+           in
+           if c == dummy3 then
+             let c, _ = eval_trans auto s1 s2 trans in
+             Cache.Lvl3.add cache3
+               (Uid.to_int s1.StateSet.Node.id)
+               (Uid.to_int s2.StateSet.Node.id)
+               (Uid.to_int trans.Translist.Node.id) c;c
+           else c
+         in
+         set states_array (Node.to_int t) st;
+         st
+      in
+      loop root states ctx, (dummy2, cache2)
+
+
+    type action = Nop | Mark | Dummy
+
+    let twopass_top_down_scan states_array (dummy2, cache2) auto tree root states ctx =
+      let attributes = TagSet.inj_positive (Tree.attribute_tags tree) in
+      let cache3 = Cache.Lvl3.create 512  Dummy in
+      let rec loop t states acc =
+       if states == StateSet.empty || t = Tree.nil then acc
+       else
+         let tag = Tree.tag tree t in
+         let trans, _, _ =
+         let c = Cache.Lvl2.find cache2 (Uid.to_int states.StateSet.Node.id) tag in
+           if c == dummy2 then
+             let c = Ata.get_trans  ~attributes:attributes auto states tag in 
+             Cache.Lvl2.add cache2 (Uid.to_int states.StateSet.Node.id) tag c;
+             c
+           else c
+         in
+         let fs = Tree.first_child tree t in
+         let ns = Tree.next_sibling tree t in
+         let s1 = if fs != Tree.nil then states_array.(Node.to_int fs) else auto.bottom_states
+         and s2 = if ns != Tree.nil then states_array.(Node.to_int ns) else auto.bottom_states
+         in
+         let mark =
+           let c = Cache.Lvl3.find cache3
+             (Uid.to_int s1.StateSet.Node.id)
+             (Uid.to_int s2.StateSet.Node.id)
+             (Uid.to_int trans.Translist.Node.id)
+           in
+           if c == Dummy then
+             let _, c = eval_trans auto s1 s2 trans in
+             let c = if c then Mark else Nop in
+              Cache.Lvl3.add cache3
+                (Uid.to_int s1.StateSet.Node.id)
+                (Uid.to_int s2.StateSet.Node.id)
+                (Uid.to_int trans.Translist.Node.id) c;c
+           else c
+         in
+         LOG(__ "twopass" 2 "Evaluating node %i (tag %s).\n%!States=%a\n%!"
+           (Node.to_int t)
+           (Tag.to_string tag)
+           StateSet.print states
+         );
+         LOG(__ "twopass" 2 "Translist=%a\nLeft=%a\nRight=%a\nMark=%s\n\n%!"
+           Translist.print trans
+           StateSet.print s1
+           StateSet.print s2
+           (match mark with
+             Dummy -> "Dummy"
+           | Mark -> "Mark"
+           | Nop -> "Nop"));
+         if mark == Mark then
+           loop ns s2 (loop fs s1 (U.NS.snoc acc t))
+         else
+           loop ns s2 (loop fs s1 acc)
+      in
+      loop root states U.NS.empty
+
+    let twopass_top_down_run auto tree root =
+      let len = Node.to_int (Tree.closing tree root) + 1 in
+      LOG(__ "twopass" 2 "Creating array of size: %i\n%!" len);
+      let states_array = Array.make len StateSet.empty in
+      let _, cache =
+       twopass_top_down states_array auto tree root auto.init Tree.nil
+      in
+      twopass_top_down_scan states_array cache auto tree root auto.init Tree.nil
+
+
+
+
+