Teknologi

367 readers

2 users here now

For debat og nyheder omkring teknologi af alle former.

founded 2 years ago

MODERATORS

SorteKanin@feddit.dk

IDLJ at det kgl. Bibliotek arkiverer det danske internet (netarkivet.dk)

submitted 2 years ago by FlapKap@feddit.dk to c/teknologi@feddit.dk

3 comments fedilink hide all child comments

Virker da rimeligt sejt. Fra hvad jeg kan læse bruger de crawleren en udviklet af internet archive. Desværre er dataen kun tilgængelig for forskning men det er da rart at vide at tingene bliver bevaret for eftertiden. Det kan være @sortekanin kan tjekke om deres crawler har været forbi feddit.dk ;) den har user agenten

Mozilla / 5.0 (compatible; kb.dk_bot; heritrix / 3.4.0 + https: //www.kb.dk/netarkivindsamling) Firefox / 57

you are viewing a single comment's thread
view the rest of the comments

[–] FlapKap@feddit.dk 3 points 2 years ago

Spændende. De ignorerer stadig robots.txt da den, deres udsagn, ville forhindre dem i at opsamle nok af siderne til at kunne gendanne dem ordentligt. Dog skriver de at de som udgangspunkt laver mindre crawls for at lure om siden er aktiv og hvis den er det så besøger de den oftere