Back to Question Center
0

Chrome Retejo Scraper Lernilo De Semalt Fakulo

1 answers:

Se vi uzas Google Chrome, ekzistas etendo por via retumilo Kiu povas helpi skrapi retpaĝojn. Ĝi estas konata kiel 'Scrapper', kaj ĝi povas esti uzata sen problemoj. Scrapper helpos pri skrapado de reteja enhavo kaj alŝutante la rezultojn al Google-dokumentoj.

Kiel frakasi retejon per Scraper-etendo?

1. Elektu Chrome-Retejon en Google Chrome;

2. En etendoj, realigu serĉon por 'Scrapper' ';

3. La unua serĉa rezulto estas la etendo konata kiel 'Scrapper' ';

4. Elektu la butonon enlistigita kiel '' Aldonu al Chrome ';

5. Revenu al la listo de UK-parlamentoj;

6. Alklaku la jenan ligilo ;

7. Nun serĉu unu MP kaj certigu la eniron estas markita;

8. Dekstra klako por elekti la "Skrapi Simila ... "opcio;

9. La konzolo por scrapper popolos en alia fenestro;

10. Rigardu la skrapitan enhavon en la skrapisto konzolo;

11. Por certigi, ke la enhavo konserviĝas kiel Google-Skatolo, elektu "Konservi al Google Docs ..."

Etendita skrapado

Antaŭ ol aliĝi al ĉi tiu recepto , ĝi utilas kompreni la bazojn de HTML. Ekzemple, vi povas legi mallongan enkondukon al HTML per ĉi tiu ligilo

Imagu, ke ni interesiĝas pri ĉiuj filmoj, kiuj staris Azio Argento, fama itala aktorino

1. Ekzistas tre detala arkivo de aktoroj en IMDB. Azio Argento-ejo estas: https://www.imdb.com/name/nm0000782/;

2. Jen vi povas vidi ĉiujn rolojn luditajn de la aktorino..Ni komencu frapante la informojn, kiujn ni interesas;

3. Provu skrapi ĝin kiel priskribis supre;

4. Vi vidos, ke la listo estas iom distorsita. Ĉi tio estas pro la fakto, ke la listo ĉi tie povas esti strukturita malsame;

5. Kapo al la scraper-konzolo. Supre maldekstre, vi vidos la malgrandan skatolon, kiu diras XPath;

6. Xpath estas speco de konsulta lingvo, kiu funkcias por XML kaj HTML;

7. XPath povas helpi lokalizi la partojn de la paĝo, kiun vi interesas. La sekva afero estas trovi taŭgan elementon kaj skribi la XPath por ĝi;

8. Nun ni aranĝu nian tablon;

9. Vi vidos, ke nia ekzistanta XPath, kiu havas ĉiujn datumojn, bezonas "// div [3] / div [3] / div [2] / div";

10. XPath informas la sistemon por vidi la dokumenton de HTML kaj elekti la trian elementon, tiam la duan elementon kaj poste ĉiuj ili;

11. Sed ni ŝatus havi niajn datumojn apartigitaj;

12. Uzu la sekcion de kolumnoj en la konzolo por scrapper por fari ĉi tion;

13. Ni unue trovos nian titolon РІР,“ Uzu Inspektan Elekton por vidi la titolon;

14. Kontrolu la titolon ene de etikedo. Aldonu la etikedon al la XPath;

15. La esprimo ŝajnas funkcii taŭge, do faru ĝin nia unua kolumno;

16. En la sekcio "Kolumnoj", anstataŭigu la nomon de la unua kolumno al "titolo";

17. Aldonu la XPaton al ĝi;

18. En la kolumna sekcio, la XPathoj estas relativaj kaj ĝi signifas ke "./b" elektos la elementon

19. En la XPath por la titolo kolumno, aldonu "./b" kaj elektu "skrapi";

20. Nun ni daŭriĝos por jaro. Jaroj troviĝas ene de unu parto;

21. Krei novan kolumnon elektante la malgrandan pluson apud la kolumno por via titolo;

22. Uzante XPath "./span" krei kolumnon por "jaro";

23. Alklaku skrapi kaj rigardu kiel aldoniĝis la jaro;

24. Farita!

December 6, 2017
Chrome Retejo Scraper Lernilo De Semalt Fakulo
Reply