Ein Robot, auch Spider oder Crawler genannt, durchsucht Inhalte von Webseiten. Robots sind spezielle Bots, d.h. Computerprogramme, die selbstständig sich wiederholenden Aufgaben nachgehen. Diese Robots gelangen von einer Website, der sogenannten Seed Page (Start-URL) über Hyperlinks auf andere URLs. So können theoretisch alle Seiten im World Wide Web erreicht werden.
Probleme gibt es vor allem bei Seiten, die über Suchmasken erreichbar sind. Auch zugangsbeschränkte Portale können von den Spidern nicht erfasst werden. Zudem stellen ständige Veränderungen im Internet, unterschiedliche Dokumenttypen und -versionen und das zunehmende Cloaking ein Problem dar.
Unterschieden wird zwischen den fokussierenden Webcrawlern und den sogenannten Harvestern. Die fokussierenden Webcrawler suchen nur Internetseiten, die für ein bestimmtes Thema relevant sind und eine bestimmte Qualität haben. Diese Seiten erkennen sie durch die Klassifizierung der Websites und den verwendeten Hyperlinks. Dafür benötigt der Robot Hintergrundwissen und Strukturinformationen. Diese Klassifizierung ist gleichzeitig ein Nachteil, da eventuell themenrelevante Seiten ausgeschlossen werden. Die Harvester suchen das Internet nach E-Mail-Adressen ab und sammeln diese in einer elektronischen Datensammlung. Vor allem in Foren, Chats und Gästebüchern werden die Harvester fündig. Diese Adressen werden vor allem für den Versand von Spam-Mails verwendet. Aufgrund dessen sollten E-Mail-Adressen im Internet so selten wie möglich angegeben werden.