Back to Question Center
0

Reteja Skrapado Kun Semalt-Fakulo

1 answers:

Reteja skrapado, ankaŭ konata kiel retejo-rikoltado, estas tekniko uzita al ĉerpi datumojn de retejoj. Reteja rikolta softvaro povas aliri rete rekte uzante HTTP aŭ retumilon. Dum la procezo povas esti efektivigita de la programaro de la uzanto de programaro, la tekniko ĝenerale kunportas aŭtomatigitan procezon efektivigitan per retpagilo aŭ bot.

Reteja skrapado estas procezo kiam strukturitaj datumoj estas kopiitaj de la retejo en lokan datumbazon por recenzoj kaj reakiro. Ĝi implicas preni retpaĝon kaj ĉerpi sian enhavon. La enhavo de la paĝo povas esti analizita, serĉita, restrukturita kaj ĝia datumo kopiis en loka stokadparato.

Retpaĝoj ĝenerale estas konstruitaj el tekstaj markaj lingvoj kiel XHTML kaj HTML, ambaŭ enhavas multajn utilajn datumojn laŭ la teksto. Tamen multaj de ĉi tiuj retejoj estis desegnitaj por homaj finaĵoj kaj ne por aŭtomata uzo. Ĉi tiu estas la kialo, kial kreita skrapado estis kreita.

Ekzistas multaj teknikoj, kiuj povas esti uzataj por efika retejo-skrapado. Iuj el ili estis ellaboritaj sube:

1. Homa Kopio-kaj-pasto

De fojo en kiam, eĉ la plej bona TTT-skrapanta ilo s ne povas anstataŭigi la precizeco kaj efikeco de mana manlibro kopii-kaj-bati..Ĉi tio estas plejparte aplikebla en situacioj, kiam retejoj starigas barojn por antaŭvidi maŝinan aŭtomatigon.

2. Tekston-Ŝablonta Teksto

Ĉi tio estas sufiĉe simpla sed potenca alproksimiĝo uzita por ĉerpi datumojn el retpaĝoj. Ĝi povas esti bazita sur la UNIX-greka grep-komando aŭ nur regula esprima facileco de donita programlingvo, ekzemple, Python aŭ Perl.

3. HTTP-Programado

HTTP-Programado povas esti uzata por statikaj kaj dinamikaj retpaĝoj. La datumo estas ĉerpita per afiŝado de HTTP-petoj al remota servilo dum uzado de socket-programado.

4. HTML Parsing

Multaj retejoj tendencas havi vastan kolekton de paĝoj kreitaj dinamike de suba strukturo fonto kiel datumbazo. Ĉi tie, datumoj kiuj apartenas al simila kategorio estas koditaj en similaj paĝoj. En HTML-analizo, programo ĝenerale detektas tian ŝablonon en aparta fonto de informoj, retiriĝas ĝiajn enhavojn kaj tradukas ĝin en filian formon, nomatan envolvilo.

5. DOM-analizado

En ĉi tiu tekniko, programo enkorpigas en kompletaj retumiloj kiel Mozilla Firefox aŭ Internet Explorer por rekuperi dinamikan enhavon generitan de la kliento-flanka skripto. Ĉi tiuj retumiloj ankaŭ povas publikigi retpaĝojn en DOM-arbon laŭ la programoj, kiuj povas ĉerpi partojn de la paĝoj.

6. Semantika Notacio Rekono

La paĝoj, kiujn vi intencas skrapi, povas ampleksi semantikajn markojn kaj komentarojn aŭ metadatojn, kiuj povas esti uzataj por lokalizi specifajn datumajn fragmentojn. Se ĉi tiuj komentarioj estas enigitaj en la paĝoj, ĉi tiu tekniko povas esti vidita kiel speciala kazo de DOM-analizado. Ĉi tiuj komentarioj ankaŭ povas esti organizitaj en sintaksan tavolon, kaj tiam konservitajn kaj administritajn aparte de la retpaĝoj. Ĝi permesas skrapistojn rekuperi datuman skemon tiel kiel komandojn de ĉi tiu tavolo antaŭ ol ĝi skrakas la paĝojn.

December 6, 2017
Reteja Skrapado Kun Semalt-Fakulo
Reply