Add text-attribute tags to the star tagset.
[SXSI/xpathcomp.git] / src / runtime.ml
index 0be30a7..40c9e97 100644 (file)
@@ -8,7 +8,7 @@ module type S = sig
   type result_set
   val top_down_run : Ata.t -> Tree.t -> Tree.node -> result_set
   val bottom_up_run : Ata.t -> Tree.t -> Compile.text_query * string -> result_set
-  val grammar_run : Ata.t -> Grammar.t -> unit -> result_set
+  val grammar_run : Ata.t -> Grammar2.t -> unit -> result_set
 
 end
 
@@ -64,54 +64,24 @@ module Make (U : ResJIT.S) : S with type result_set = U.NS.t =
 
        type opcode = (t -> t -> t -> Tree.t -> Tree.node -> StateSet.t * t)
 
-       type t = opcode Cache.t Cache.t Cache.t
+       type t = opcode Cache.Lvl3.t
 
        let dummy _ _ _ _ _ = failwith "Uninitialized L3JIT"
 
        let create () = Cache.Lvl3.create 1024 dummy
-
-       let stats fmt d =
-         let d = Cache.Lvl3.to_array d in
-         let len = Array.fold_left
-           (fun acc a ->
-              Array.fold_left (fun acc2 a2 -> Array.length a2 + acc2) acc a) 0 d
-         in
-
-         let lvl1 =
-           Array.fold_left
-             (fun acc a -> if Array.length a == 0 then acc else acc+1) 0 d in
-         let lvl2 = Array.fold_left
-           (fun acc a ->
-              Array.fold_left (fun acc2 a2 -> if Array.length a2 == 0 then acc2 else acc2+1)
-                acc a) 0 d
-         in
-         let lvl3 = Array.fold_left
-           (fun acc a ->
-             Array.fold_left (fun acc2 a2 ->
-               Array.fold_left
-                 (fun acc3 a3 -> if a3 != dummy then acc3+1 else acc3)
-                 acc2 a2)
-               acc a) 0 d
-         in
-       fprintf fmt "L3JIT Statistics:
-\t%i entries
-\t%i used L1 lines
-\t%i used L2 lines
-\t%i used L3 lines
-\ttable size: %ikb\n"
-         len lvl1 lvl2 lvl3 (Ocaml.size_kb d)
-
        let find t tlist s1 s2 =
          Cache.Lvl3.find t
-           (Uid.to_int tlist.Translist.Node.id)
-           (Uid.to_int s1.StateSet.Node.id)
            (Uid.to_int s2.StateSet.Node.id)
+           (Uid.to_int s1.StateSet.Node.id)
+           (Uid.to_int tlist.Translist.Node.id)
+
+
 
        let add t tlist s1 s2 v =
          Cache.Lvl3.add t
-           (Uid.to_int tlist.Translist.Node.id)
-           (Uid.to_int s1.StateSet.Node.id)
            (Uid.to_int s2.StateSet.Node.id)
+           (Uid.to_int s1.StateSet.Node.id)
+           (Uid.to_int tlist.Translist.Node.id)
            v
 
        let compile auto trl s1 s2 =
@@ -124,7 +94,7 @@ module Make (U : ResJIT.S) : S with type result_set = U.NS.t =
          in
          let ns1 = StateSet.inter s1 orig_s1
          and ns2 = StateSet.inter s2 orig_s2 in
-         let res, ops, todo = eval_trans auto s1 s2 trl in
+         let res, ops, todo = eval_trans auto ns1 ns2 trl in
          let code, not_marking = ResJIT.compile ops in
          let todo_code, todo_notmarking =
            List.fold_left (fun (l, b) (p, q, o) -> let c, b' = ResJIT.compile o in
@@ -221,8 +191,9 @@ DEFINE LOOP_TAG (t, states, tag, ctx) = (
     l2jit_dispatch
       _t (tag) (states) (ctx) (L2JIT.find cache2 (tag) (states)))
 
+
     let top_down_run auto tree root states ctx =
-      let res_len = (StateSet.max_elt auto.states) + 1 in
+      let res_len = StateSet.max_elt auto.states + 1 in
       let empty_slot = Array.create res_len U.NS.empty in
       let nil_res = auto.bottom_states, empty_slot in
       let cache3 = L3JIT.create () in
@@ -235,42 +206,39 @@ DEFINE LOOP_TAG (t, states, tag, ctx) = (
       in
       let cache2 = L2JIT.create () in
 
-      let () = D_TRACE_(at_exit (fun () -> L2JIT.stats Format.err_formatter cache2)) in
 
       let rec l2jit_dispatch t tag states ctx opcode =
        match opcode with
-         | L2JIT.RETURN () -> nil_res
-         | L2JIT.CACHE () ->
+         | L2JIT.RETURN -> nil_res
+         | L2JIT.CACHE ->
              let opcode = L2JIT.compile cache2 auto tree tag states in
                l2jit_dispatch t tag states ctx opcode
 
          | L2JIT.LEFT (tr_list, instr) ->
              let res1, slot1 =
-               l2jit_dispatch_instr t tag states (Tree.closing tree t) instr true
+               l2jit_dispatch_instr t tag states (Tree.closing tree t) instr
              in
                l3jit_dispatch tr_list res1 auto.bottom_states t slot1 empty_slot
 
          | L2JIT.RIGHT (tr_list, instr) ->
-           let res2, slot2 = l2jit_dispatch_instr t tag states ctx instr false in
+           let res2, slot2 = l2jit_dispatch_instr t tag states ctx instr in
              l3jit_dispatch tr_list auto.bottom_states res2 t empty_slot slot2
 
          | L2JIT.BOTH (tr_list, instr1, instr2) ->
              let res1, slot1 =
-               l2jit_dispatch_instr t tag states (Tree.closing tree t) instr1 true
+               l2jit_dispatch_instr t tag states (Tree.closing tree t) instr1
              in
-             let res2, slot2 = l2jit_dispatch_instr t tag states ctx instr2 false in
+             let res2, slot2 = l2jit_dispatch_instr t tag states ctx instr2 in
                l3jit_dispatch tr_list res1 res2 t slot1 slot2
 
-    and l2jit_dispatch_instr t tag states ctx instr _left =
+    and l2jit_dispatch_instr t tag states ctx instr =
       match instr with
        | L2JIT.NOP () -> nil_res
        | L2JIT.FIRST_CHILD s -> LOOP ((Tree.first_child tree t), s, ctx)
        | L2JIT.NEXT_SIBLING s -> LOOP ((Tree.next_sibling tree t), s, ctx)
-(*     | L2JIT.NEXT_SIBLING s -> LOOP ((Tree.next_node_before tree t ctx), s, ctx) *)
 
        | L2JIT.FIRST_ELEMENT s -> LOOP ((Tree.first_element tree t), s, ctx)
        | L2JIT.NEXT_ELEMENT s -> LOOP ((Tree.next_element tree t), s, ctx)
-(*     | L2JIT.NEXT_ELEMENT s -> LOOP ((Tree.next_node_before tree t ctx), s, ctx) *)
 
        | L2JIT.TAGGED_DESCENDANT (s, tag) ->
            LOOP_TAG ((Tree.tagged_descendant tree t tag), s, tag, ctx)
@@ -299,24 +267,24 @@ DEFINE LOOP_TAG (t, states, tag, ctx) = (
        | L2JIT.TAGGED_SUBTREE(s, tag) ->
 
          let count = U.NS.subtree_tags tree t tag in
-               if count != U.NS.empty then
-                 let r = Array.copy empty_slot in
-                   r.(auto.last) <- count;
-                   s,r
-               else
-                 s,empty_slot
+         if count != U.NS.empty then
+           let r = Array.copy empty_slot in
+           r.(auto.last) <- count;
+           s,r
+         else
+           s,empty_slot
 
        | L2JIT.ELEMENT_SUBTREE(s) ->
 
-             let count = U.NS.subtree_elements tree t in
-               if count != U.NS.empty then
-                 let r = Array.copy empty_slot in
-                   r.(auto.last) <- count;
-                   s,r
-               else
-                 s,empty_slot
+         let count = U.NS.subtree_elements tree t in
+         if count != U.NS.empty then
+           let r = Array.copy empty_slot in
+           r.(auto.last) <- count;
+           s,r
+         else
+           s,empty_slot
 
-    in
+      in
       let r = LOOP (root, states, ctx) in
       (*L3JIT.stats err_formatter cache3; *)
       r
@@ -423,158 +391,245 @@ DEFINE LOOP_TAG (t, states, tag, ctx) = (
       let _, slot = loop_leaves leaves (nil_res) in
       slot.(StateSet.min_elt auto.topdown_marking_states)
 
+let get_trans g auto tag states =
+  StateSet.fold (fun q tr_acc ->
+    List.fold_left
+      (fun ((lstates, rstates, tacc) as acc) (ts, trs) ->
+        if TagSet.mem (Tag.translate tag) ts then
+         if not (TagSet.mem Tag.attribute ts) && Grammar2.is_attribute g tag
+         then acc
+             else
+            let _, _, _, phi = Transition.node trs in
+                let (_,_,l), (_,_,r) = Formula.st phi in
+                (StateSet.union l lstates,
+                 StateSet.union r rstates,
+                 Translist.cons trs tacc)
+        else acc)
+      tr_acc (Hashtbl.find auto.trans q)
+  ) states (StateSet.empty, StateSet.empty, Translist.nil)
 
 (*  Grammar run *)
-    module ArrayPool =
-    struct
-      let pool = Queue.create ()
-      let create dummy =
-       if Queue.is_empty pool then
-         Array.create 16 dummy
-       else
-         Queue.take pool
-      let create dummy = Array.create 16 dummy
-      let free p = Queue.add p pool
+let dispatch_param0 conf id2 y0 y1 =
+  match conf with
+  | Grammar2.C0 | Grammar2.C2 -> Grammar2.Node0 id2
+  | Grammar2.C1 | Grammar2.C5 -> Grammar2.Node1(id2,y0)
+  | Grammar2.C3 | Grammar2.C6 -> y0
+  | Grammar2.C4 -> Grammar2.Node2(id2, y0, y1)
+
+let dispatch_param1 conf id2 y0 y1 =
+  match conf with
+  | Grammar2.C2 -> y0
+  | Grammar2.C3 -> Grammar2.Node0 id2
+  | Grammar2.C5 -> y1
+  | Grammar2.C6 -> Grammar2.Node1(id2, y1)
+  | _ -> Grammar2.dummy_param
+
+    module K_down = struct
+      type t = Grammar2.n_symbol * StateSet.t
+      let hash (x,y) = HASHINT2(Node.to_int x, Uid.to_int y.StateSet.Node.id)
+      let equal (x1,y1) (x2,y2) = x1 == x2 && y1 == y2
     end
 
+    module K_up = struct
+      type t = Grammar2.n_symbol * StateSet.t * StateSet.t * StateSet.t
+      let hash (a,b,c,d) =
+       HASHINT4 (Node.to_int a,
+                 Uid.to_int b.StateSet.Node.id,
+                 Uid.to_int c.StateSet.Node.id,
+                 Uid.to_int d.StateSet.Node.id)
+      let equal (a1, b1, c1, d1) (a2, b2, c2, d2) =
+       a1 == a2 && b1  == b2 && c1 == c2 && d1 == d2
+    end
 
-    let grammar_run auto g () =
-
-      let start_symbol = (Node.of_int 0) in
-      let dummy_leaf = Grammar.Leaf (Node.nil) in
+    module DCache =
+      struct
+       include Hashtbl.Make(K_down)
+       let dummy = StateSet.singleton State.dummy
+       let notfound l = l.(0) == dummy && l.(1) == dummy
+       let find h k =
+         try
+           find h k
+         with
+           Not_found ->
+             let a = [| dummy; dummy |] in
+             add h k a;
+             a
+      end
+    module UCache = Hashtbl.Make(K_up)
+    type result = {
+      in0 : StateSet.t;
+      in1 : StateSet.t;
+      out0 : StateSet.t * U.t;
+      out1 : StateSet.t * U.t;
+      main : StateSet.t * U.t
+    }
+    let mk_empty e =
+      { in0 = StateSet.empty;
+       in1 = StateSet.empty;
+       out0 = e;
+       out1 = e;
+       main = e
+      }
+    let mk_nil s v  =
+      {
+       mk_empty (s,v) with
+         out0 = StateSet.empty,v;
+         out1 = StateSet.empty,v;
+      }
 
+    let grammar_run auto g () =
+      let dummy_leaf = Grammar2.dummy_param in
+      let dummy_set = StateSet.singleton State.dummy in
       let res_len = (StateSet.max_elt auto.states) + 1 in
       let empty_slot = Array.create res_len U.NS.empty in
-      let nil_res = auto.bottom_states, empty_slot in
-      let empty_res = StateSet.empty, empty_slot in
+      let nil_res = mk_nil auto.bottom_states empty_slot in
+      let empty_res = mk_empty (StateSet.empty, empty_slot) in
       let cache3 = L3JIT.create () in
       let dummy2 = (StateSet.empty, StateSet.empty, Translist.nil) in
       let cache2 = Cache.Lvl2.create 512 dummy2 in
-      let tmp1 = Array.create 16 dummy_leaf in
-      let tmp2 = Array.create 16 dummy_leaf in
+      let rule_counter = ref 0 in
+      let preorder_counter = ref 0 in
+      let dcache = DCache.create 1023 in
+      let ucache = UCache.create 1023 in
+      let term_array = [| StateSet.empty; StateSet.empty |] in
       let get_trans tag states =
        let c = Cache.Lvl2.find cache2 tag (Uid.to_int states.StateSet.Node.id) in
        if c == dummy2 then
-         let c =
-           StateSet.fold (fun q tr_acc ->
-              List.fold_left
-                (fun ((lstates, rstates, tacc) as acc) (ts, trs) ->
-                  if TagSet.mem (Tag.translate tag) ts then
-                    let _, _, _, phi = Transition.node trs in
-                    let (_,_,l),(_,_,r) = Formula.st phi in
-                    (StateSet.union l lstates,
-                     StateSet.union r rstates,
-                     Translist.cons trs tacc)
-                  else acc)
-                tr_acc (Hashtbl.find auto.trans q)
-            ) states (StateSet.empty, StateSet.empty, Translist.nil)
-         in
+         let c = get_trans g auto tag states in
          begin
            Cache.Lvl2.add cache2 tag (Uid.to_int states.StateSet.Node.id) c;
            c
          end
        else c
       in
+      let lambda = ref 0 in
       let rec start_loop idx states =
        TRACE("grammar", 2, __ "Node %i\n%!" (Node.to_int idx));
+       if states == dummy_set then nil_res else
        if idx < Node.null then nil_res
-       else if StateSet.is_empty states then empty_res
        else begin
-         let symbol = Grammar.get_symbol_at g start_symbol idx in
-         if Grammar.is_terminal symbol then
-           let symbol = Grammar.terminal symbol in
-           let tag = Grammar.tag symbol in
-           let lst, rst, trans = get_trans tag states in
-           let fs = Grammar.first_child g start_symbol idx in
-           let s1, slot1 = start_loop fs lst in
-           let s2, slot2 = start_loop (Grammar.next_sibling g start_symbol fs) rst in
-           let opcode = L3JIT.find cache3 trans s1 s2 in
-           if opcode == L3JIT.dummy then (L3JIT.cache_apply cache3 auto trans s1 s2) empty_slot slot1 slot2 (Obj.magic ()) (Obj.magic ())
-           else opcode empty_slot slot1 slot2 (Obj.magic ()) (Obj.magic())
+         let symbol = Grammar2.start_tag g idx in
+         let fc = Grammar2.start_first_child g idx in
+         let ns = Grammar2.start_next_sibling g fc in
+         if Grammar2.is_terminal g symbol then
+           let t = Grammar2.terminal symbol in
+             terminal_loop t states (Grammar2.Leaf (~-1,0,term_array, fc)) (Grammar2.Leaf (~-1,1,term_array, ns))
          else
-           let tn = Grammar.non_terminal symbol in
-           let nparam = Grammar.num_params tn in
-           let a_param = tmp1 (*ArrayPool.create dummy_leaf*) in
-           let child = ref (Grammar.first_child g start_symbol idx) in
-           for i = 0 to nparam - 1 do
-             let c = !child in
-             a_param.(i) <- Grammar.Leaf c;
-             child := Grammar.next_sibling g start_symbol c;
-           done;
-           (*let a_param = Array.init nparam
-             (fun _ -> let c = !child in
-                       child := Grammar.next_sibling g start_symbol c;
-                       Grammar.Leaf c) 
-              in *)
-           rule_loop tn a_param states
-
+           let nt = Grammar2.non_terminal symbol in
+           incr lambda;
+           let lmbd = !lambda in
+           let y0 = (Grammar2.Leaf (lmbd,0, term_array, fc))
+           and y1 = (Grammar2.Leaf (lmbd,1, term_array, ns)) in
+           rule_loop nt states y0 y1
        end
-      and counter = ref 0
-      and rule_loop (t : Grammar.n_symbol) a_param states =
-
-       incr counter;
-       if !counter land 8191 == 0 then Gc.minor();
-
-       let id1 = Grammar.get_id1 g t in
-       let id2 = Grammar.get_id2 g t in
-       let param_pos = Grammar.get_param_pos g t in
-       let nparam1 = Grammar.num_children id1 in
-       let nparam2 =
-         if Grammar.is_terminal id2 && Grammar.is_nil g (Grammar.terminal id2) then 0
-         else Grammar.num_children id2
-       in
-       let a_param1 = (*ArrayPool.create dummy_leaf*) tmp2 (* Array.create nparam1 dummy_leaf *) in
-       let a_param2 = Array.create nparam2 dummy_leaf (* Array.create nparam2 dummy_leaf *) in
-       let i = param_pos - 2 in
-       (*Array.blit a_param 0 a_param1 0 (i+1);  (* Pass parameters before id2 *) *)
-       (* Array.blit is too slow *)
-       for k = 0 to i do
-         a_param1.(k) <- a_param.(k);
-       done;
-       a_param1.(i+1) <- Grammar.Node(id2, a_param2);  (* id2( ... ) *)
-       (*Array.blit a_param (i + nparam2 + 1) a_param1 (i+2) (nparam1 - i - 2); (* Pass parameters after id2 *) *)
-       for k = 0 to nparam1 - i -3 do
-         a_param1.(i+2+k) <- a_param.(i + nparam2 + 1 + k);
-       done;
-       (*Array.blit a_param (i + 1) a_param2 0 nparam2; (* parameters below id2 *) *)
-       for k = 0 to nparam2 - 1 do
-         a_param2.(k) <- a_param.(i+1+k)
-       done;
-       for i = 0 to nparam1 do
-         a_param.(i) <- a_param1.(i)
-       done;
-       if Grammar.is_non_terminal id1 then
-         let id1 = Grammar.non_terminal id1 in
-         rule_loop id1 a_param states
-       else
-         let id1 = Grammar.terminal id1 in
-         terminal_loop id1 a_param states
+      and rule_loop (t : Grammar2.n_symbol) states y0 y1 =
+       if t = Node.nil || states == dummy_set then nil_res else
+         let () = incr rule_counter in
+         if !rule_counter land 65535 == 0 then begin Gc.minor() end;
+         let k = (t, states) in
+         let pstates = DCache.find dcache k in
+         let notfound = DCache.notfound pstates in
+         let rhs = Grammar2.get_rule g t in
+         let id1 = Grammar2.get_id1 rhs in
+         let id2 = Grammar2.get_id2 rhs in
+         let conf = Grammar2.get_conf rhs in
+         if notfound then
+           let ny0 = dispatch_param0 conf id2 y0 y1 in
+           let ny1 = dispatch_param1 conf id2 y0 y1 in
+           let res = dispatch_loop id1 states ny0 ny1 in
+           pstates.(0) <- res.in0;
+           pstates.(1) <- res.in1;
+           res (*
+           UCache.add ucache (t, states, fst res.out0, fst res.out1)
+             res.main;
+           let h = Hashtbl.create 7 in
+           for i = 0 to res_len - 1 do
+             Hashtbl.add h (0, i) (snd res.out0).(i);
+             Hashtbl.add h (1, i) (snd res.out1).(i);
+           done;
+           { res with
+             main = ((fst res.main), (U.close h (snd res.main)));
+           } *)
 
-      and terminal_loop (symbol : Grammar.t_symbol) a_param states =
-       if Grammar.is_nil g symbol then nil_res else begin
-         (* todo factor in from start_loop *)
-         let tag = Grammar.tag symbol in
-         let lst, rst, trans = get_trans tag states in
-         let s1, slot1 = partial_loop a_param.(0) lst in
-         let s2, slot2 = partial_loop a_param.(1) rst in
-         let opcode = L3JIT.find cache3 trans s1 s2 in
-         if opcode == L3JIT.dummy then (L3JIT.cache_apply cache3 auto trans s1 s2) empty_slot slot1 slot2 (Obj.magic ()) (Obj.magic ())
+           else
+             let res0 = partial_loop y0 pstates.(0) in
+             let res1 = partial_loop y1 pstates.(1) in
+             let k2 = (t, states, fst res0.main, fst res1.main) in
+             let s, r =
+               try
+                 UCache.find ucache k2
+               with
+               Not_found ->
+                 let ores0 = { res0 with main = fst res0.main, U.var 0 (snd res0.main) }
+                 and ores1 = { res1 with main = fst res1.main, U.var 1 (snd res1.main) }
+                 in
+                 let res = dispatch_loop id1 states (Grammar2.Cache (0,ores0)) (Grammar2.Cache (1, ores1)) in
+                 UCache.add ucache k2 res.main;
+                 res.main
+             in
+             let h = Hashtbl.create 7 in
+             for i = 0 to res_len - 1 do
+               Hashtbl.add h (0, i) (snd res0.main).(i);
+               Hashtbl.add h (1, i) (snd res1.main).(i);
+             done;
+             { in0 = pstates.(0);
+               in1 = pstates.(1);
+               out0 = res0.main;
+               out1 = res1.main;
+               main = s, U.close h r;
+             }
+
+      and dispatch_loop id1 states ny0 ny1 =
+         if Grammar2.is_non_terminal g id1 then
+           rule_loop (Grammar2.non_terminal id1) states ny0 ny1
          else
-           opcode empty_slot slot1 slot2 (Obj.magic())  (Obj.magic())
+           terminal_loop (Grammar2.terminal id1) states ny0 ny1
 
-           (* End: TODO refactor *)
+      and terminal_loop (symbol : Grammar2.t_symbol) states y0 y1 =
 
+       if symbol == Grammar2.nil_symbol || symbol = Node.nil || states == dummy_set then nil_res else begin
+         let tag = Grammar2.tag symbol in
+         let lst, rst, trans = get_trans tag states in
+         let res0 = partial_loop y0 lst in
+         let res1 = partial_loop y1 rst in
+         let s1, slot1 = res0.main
+         and s2, slot2 = res1.main in
+         let opcode = L3JIT.find cache3 trans s1 s2 in
+         let node = Node.of_int !preorder_counter in
+         incr preorder_counter;
+         let res =
+           if opcode == L3JIT.dummy then
+             (L3JIT.cache_apply cache3 auto trans s1 s2) empty_slot slot1 slot2 (Obj.magic ()) node
+           else
+             opcode empty_slot slot1 slot2 (Obj.magic())  (node)
+         in
+         { in0 = lst;
+           in1 = rst;
+           out0 = res0.main;
+           out1 = res1.main;
+           main = res }
        end
 
       and partial_loop l states =
-       match l with
-       | Grammar.Leaf id -> start_loop id states
-       | Grammar.Node (id, a_param) ->
-         if Grammar.is_terminal id then terminal_loop (Grammar.terminal id) a_param states
-         else rule_loop (Grammar.non_terminal id) a_param states
+       if l == dummy_leaf then nil_res else
+         match l with
+         | Grammar2.Cache (_, r) -> r
+         | Grammar2.Leaf (_,_, _, id) -> start_loop id states
+         | Grammar2.Node0 id ->
+           if (Grammar2.terminal id) == Grammar2.nil_symbol then nil_res
+           else
+             rule_loop (Grammar2.non_terminal id) states dummy_leaf dummy_leaf
+
+         | Grammar2.Node1 (id, y0) ->
+           rule_loop (Grammar2.non_terminal id) states y0 dummy_leaf
+         | Grammar2.Node2 (id, y0, y1) ->
+           if Grammar2.is_terminal g id then
+           terminal_loop (Grammar2.terminal id) states y0 y1
+           else
+             rule_loop (Grammar2.non_terminal id) states y0 y1
       in
-      (*L3JIT.stats err_formatter cache3; *)
-      let _, slot = start_loop (Node.null) auto.init in
+
+      let (_, slot) = (start_loop (Node.null) auto.init).main in
       slot.(StateSet.min_elt auto.topdown_marking_states)
     ;;