Eilen huomasin oudosti kasvaneen kaistankulutuksen palvelimella, ja katsoin lokeista, että kuka sivustoa niin tahkoaa. Googlen, Yahoo!:n ja MSN:n web-robotit kun osaavat selata palvelinta niin, ettei kaistankäyttö juuri siitä muutu. Tämä tietokone sen sijaan kiskoi koko ajan koko kaistan leveydellä kahdella yhteydellä sivustoa talteen.
Kyseessä oli DNS-osoitteella ark3.lib.helsinki.fi toimiva tietokone. Jäljet johtivat Kansalliskirjastoon, ja lähetin sinne tiedustelua asian suhteen. Vastaus tuli nopeasti, parissa tunnissa:
Uudessa vapaakappalelaissa on 2§ 3) Suomessa sijaitsevilla palvelimilla oleviin verkkoaineistoihin sekä muihin verkkoaineistoihin, jotka on tarkoitettu yleisön saataville Suomessa; myös internetsivut kuuluvat uuden lain myötä vapaakappalelain alaiseen aineistoon. Keräämme siis pysäytyskuvina kotimaista aineistoa, jota voidaan myöhemmin antaa tutkijoiden käyttöön erikoisluvalla kirjaston tiloissa.
Kyseessä on siis Laki kulttuuriaineistojen tallettamisesta ja säilyttämisestä, ja siellä todella säädetään, että suomalaisista verkkosivuista voidaan ottaa kopioita. Olen erittäin otettu siitä, että Kansalliskirjasto tulkitsee verkkosivuni kulttuurisesti merkittäväksi 😉 .
Ilmeisesti heillä on enemmänkin botteja selaamassa verkkoa, kuten ark1.lib.helsinki.fi, ark2.lib.helsinki.fi ja ark4.lib.helsinki.fi, tai ainakin sellaisille DNS-nimille löytyy IP-vastine.