Răzuire web cu Semalt Expert

Răzuirea web, cunoscută și sub denumirea de recoltare web, este o tehnică folosită pentru extragerea datelor de pe site-uri web. Software-ul de recoltare web poate accesa un web direct folosind HTTP sau un browser web. În timp ce procesul poate fi implementat manual de către un utilizator de software, tehnica implică, în general, un proces automat implementat folosind un robot crawler sau bot.

Răzuirea Web este un proces în care datele structurate sunt copiate de pe web într-o bază de date locală pentru recenzii și regăsire. Aceasta implică preluarea unei pagini web și extragerea conținutului acesteia. Conținutul paginii poate fi analizat, căutat, restructurat și copiat datele sale într-un dispozitiv de stocare local.

Paginile web sunt, în general, construite din limbaje de marcare bazate pe text, cum ar fi XHTML și HTML, ambele conțin o mare parte de date utile sub formă de text. Cu toate acestea, multe dintre aceste site-uri web au fost concepute pentru utilizatorii finali umani și nu pentru utilizare automatizată. Acesta este motivul pentru care a fost creat software de răzuire.

Există numeroase tehnici care pot fi folosite pentru o razuire web eficientă. Unele dintre ele au fost elaborate mai jos:

1. Copiere și lipire umană

Din când în când, chiar și cele mai bune instrumente de răzuit web nu pot înlocui acuratețea și eficiența copierii și lipirii manuale a unui om. Acest lucru se aplică mai ales în situațiile în care site-urile web setează bariere pentru a preveni automatizarea mașinii.

2. Potrivirea modelului textului

Aceasta este o abordare destul de simplă, dar puternică, utilizată pentru extragerea datelor din paginile web. Se poate baza pe comanda UNIX grep sau doar pe o facilitate de expresie obișnuită a unui limbaj de programare dat, de exemplu, Python sau Perl.

3. Programare HTTP

Programarea HTTP poate fi utilizată atât pentru paginile web statice cât și pentru cele dinamice. Datele sunt extrase prin postarea cererilor HTTP pe un server web de la distanță în timp ce se folosește programarea socket.

4. Parsing HTML

Multe site-uri web tind să aibă o colecție extinsă de pagini create dinamic dintr-o sursă de structură de bază, cum ar fi o bază de date. Aici, datele care aparțin unei categorii similare sunt codate în pagini similare. În analiza HTML, un program detectează, în general, un astfel de șablon într-o anumită sursă de informații, își preia conținutul și apoi îl traduce într-un formular afiliat, denumit un înveliș.

5. Analiza DOM

În această tehnică, un program se înscrie într-un browser web complet, cum ar fi Mozilla Firefox sau Internet Explorer, pentru a prelua conținut dinamic generat de scriptul din partea clientului. Aceste browsere pot, de asemenea, analiza paginile web într-un arbore DOM, în funcție de programele care pot extrage părți din pagini.

6. Recunoașterea adnotării semantice

Paginile pe care intenționați să le raziți pot cuprinde marcaje și adnotări semantice sau metadate, care pot fi utilizate pentru a localiza fragmente de date specifice. Dacă aceste adnotări sunt încorporate în pagini, această tehnică poate fi privită ca un caz special de analiză DOM. Aceste adnotări pot fi, de asemenea, organizate într-un strat sintactic, apoi stocate și gestionate separat de paginile web. Permite răzuitorilor să recupereze schema de date, precum și comenzile din acest strat înainte de a restrânge paginile.