Back to Question Center
0

Semalt Elaborates Sur URLitor - Tre Malvarmeta Reta Scrapado & Datuma Eltira Ilo

1 answers:

URLitorio estas nova sed efika retejo-frapanta kaj datuma eltira ilo. Por uzi URLitor, vi nur bezonas aldoni liston de ĉiuj URLoj, kiujn vi volas disŝalti enrete en la provizita ŝablono. Tiam vi devas specifi la HTML-elementon, kiun vi volas eltiri el la retpaĝoj kaj alklaku la submetan butonon. Ĝi estas tiel facila kiel tio. Kun ĉi tiu ilo, vi ne plu bezonas kopii aŭ bati el la retumilo.

xPath estas lingvo uzita por serĉi informojn en XML-dosieroj. Ĝi uzas iujn esprimojn por elekti nodo-arojn aŭ nodojn en XML-dosieroj. La esprimoj, kiujn XPath komprenas, estas tre similaj al tiuj, kiuj estas uzataj per normalaj komputilaj dosieroj aŭ dokumentoj.

Kvankam XPath estas uzata per pluraj programlingvoj, ĉi tiu ilo estis konstruita por uzantoj, kiuj ne havas programojn. Do, vi ne bezonas esti programisto por uzi ĝin. Kun ĉi tiu ilo, vi povas ĉerpi datumojn de pluraj HTML kaj XML-paĝoj.

Por simpleco de uzo, multaj ofte uzataj XPath-esprimoj estis antaŭdifinitaj en falmenuŝon por ke uzantoj nur devas elekti iujn el ili laŭ sia celo. Tamen, tre spertaj uzantoj de XPath havas la liberecon uzi siajn kutimajn esprimojn kiam ajn ili deziras..

La ilo estis desegnita kun la kapablo de 100 URLoj en sola skrapanta kunsido, kaj ĝi prenas maksimume 10 esprimojn samtempe. Alivorte, ĝi povas skrapi datumojn de maksimumo de 100 URLoj samtempe.

Kelkaj gravaj kutimaj esprimoj de XPath, kiuj povas esti modifitaj aŭ aldonitaj, estis priskribitaj rekte sube:

1. // div [2] - Ĉi tiu esprimo selektas la dua div hierarkie;

2. // ligilo [@ rel = 'kanona'] / @ href - Ĉi tiu esprimo elektas la lokon (ref) de la etikedo kiu estas uzata por agordi la referentecon egala al kanona;

3. / html / head / meta [@ name = 'description'] / @ content - Ĉi tiu esprimo estas uzata por elekti enhavon;

4. // * [@ class = 'class-name'] - Vi povas uzi ĉi tiun esprimon por elekti ĉiujn elementojn kun 'klas-nomo' kiel CSS klaso;

5. // h2 | // titolo - Ĉi tiu esprimo povas esti uzita por elekti ambaŭ la unuan H2 kaj la paĝtitolon;

6. // * [name

= 'h1' aŭ nomo

= 'title'] - Ĉi tiu esprimo funkcias ĝuste kiel la supra. Tamen, la esprimo prezentita pli supre estas pli bona, ĉar ĝi estas pli mallonga;

7. // * [enhavas (@class, 'thumb')] - Ĉi tiu esprimo elektas ĉiun elementon kiu havas CSS-klason kaj ankaŭ enhavas 'thumb' por eltiro;

8. // patro :: * [teksto

= 'Bonvenon'] - Ĉi tiu esprimo elektas la gepatron de iu ajn elemento, kiu havas la tekston 'Bonvenon ';

Ĉi tiu ilo estas beta versio kaj ankoraŭ povus labori kun iuj eraroj. Tamen, ĝi ankoraŭ estas bonega ilo por uzantoj kun malmultaj aŭ ne programaj konoj, ĉar ĉiuj ofte uzataj esprimoj estis antaŭdifinitaj en menuon antaŭe menciitan.

December 7, 2017
Semalt Elaborates Sur URLitor - Tre Malvarmeta Reta Scrapado & Datuma Eltira Ilo
Reply