Add crawling TODOs
[tt.git] / TODO
diff --git a/TODO b/TODO
index 83aa016..b48bfd8 100644 (file)
--- a/TODO
+++ b/TODO
@@ -10,7 +10,6 @@ Legend:
 
 In-progress
 -----------
-
 - [-] Convert to Typed Racket
   - [x] build executable (otherwise too-slow)
   - [-] add signatures
@@ -18,6 +17,8 @@ In-progress
     - [ ] inner
     - [ ] imports
 - [-] commands:
+  - [x] c | crawl
+    Discover new peers mentioned by known peers.
   - [x] r | read
     - see timeline ops above
   - [ ] w | write
@@ -48,9 +49,14 @@ In-progress
     - [x] mentions from timeline messages
       - [x] @<source.nick source.url>
       - [x] @<source.url>
-    - [x] "following" from timeline comments: # following = <nick> <uri>
+    - [ ] "following" from timeline comments: # following = <nick> <uri>
   - [ ] Parse User-Agent web access logs.
-  - [ ] Update peer ref file(s)
+  - [-] Update peer ref file(s)
+    - [x] peers-all
+    - [x] peers-mentioned
+    - [ ] peers-followed (by others, parsed from comments)
+    - [ ] peers-down (net errors)
+    - [ ] redirects?
     Rough sketch from late 2019:
         let read file =
             ...
@@ -93,6 +99,22 @@ In-progress
 
 Backlog
 -------
+- [ ] Crawl all cache/objects/*, not given peers.
+  BUT, in order to build A-mentioned-B graph, we need to know the nick
+  associated with the URI whos object we're examining. How to do that?
+- [ ] Crawl downloaded web access logs
+- [ ] download-command hook to grab the access logs
+
+    (define (parse log-line)
+      (match (regexp-match #px"([^/]+)/([^ ]+) +\\(\\+([a-z]+://[^;]+); *@([^\\)]+)\\)" log-line)
+        [(list _ client version uri nick) (cons nick uri)]
+        [_ #f]))
+
+    (list->set (filter-map parse (file->lines "logs/combined-access.log")))
+
+    (filter (λ (p) (equal? 'file (file-or-directory-type p))) (directory-list logs-dir))
+
+- [ ] user-agent file as CLI option - need to run at least the crawler as another user
 - [ ] Support fetching rsync URIs
 - [ ] Check for peer duplicates:
   - [ ] same nick for N>1 URIs
@@ -146,6 +168,7 @@ Backlog
 
 Done
 ----
+- [x] Dedup read-in peers before using them.
 - [x] Prevent redundant downloads
   - [x] Check ETag
   - [x] Check Last-Modified if no ETag was provided
This page took 0.024735 seconds and 4 git commands to generate.