Back to Question Center
0

jsoup: Java HTML Scrapper - Semalt Review

1 answers:

jsoup estas Java-repositorio kiu ekzekutas HTML. Ĝi estas ekipita per efika kaj efika API kiu kolektas, analizas kaj administras datumojn, uzante la postulatajn DOM, CSS kaj jQuery-similajn metodojn.

Kun jubaj programistoj kaj retejaj projektantoj povas evoluigi dokumentojn de retaj dosieroj sen malfunkciigi la strukturon de la fontaj dosieroj. Ricevinte la dosierojn, kun jsoup-uzantoj povas reordigi aŭ rediseñigi la tutan strukturojn de elementoj aŭ elementaj komponantoj aldonante aŭ modifante la elementojn aŭ enhavojn aŭ ambaŭ.

La ilo estas konstruita kun ampleksa lerteco por provizi fleksebla kaj norma program-interfaco al uzantoj ene de ampleksa diverseco de retpaĝaj kaj aplikoj. Ĉi tio donas al sia uzanto la bezonatan aliron ŝanĝi, forigi aŭ aldoni komponantojn al siaj derivoj.

jsoup povas malkodi kaj malintegri datumojn en pli malgrandajn elementojn por facila tradukado en aliajn formatojn. La eniga datumo estas minita laŭ formo de algoritma progreso, kiu estas formita de kodo de instrukcioj konstruita en kolekto aŭ deriva arbo. Ĝi estas konstruita por kompreni kaj integri HTML-komponantojn tiel ke ĝi povas rekuperi dosierajn komponantojn kun tia fleksebleco laŭ la kodiga strukturo. Kiel ĝi faras ĉi tion? Ĝi rampas kaj skrapas la tutan retpaĝon por aliro kaj ŝablono por kapti datumojn. Se datuma derivado estas ebla, ĝi progresos per:

Navigado kaj analizado la parseca arbo de ĝia plej alta nivelo per la strukturo de agordo al ĝia plej malalta nivelo konsiderante ĉiun unuforman datumon. Ĉi tiu alproksimiĝo estas nomita la supra-malsupra analizo

Skrapante datumojn de la plej malalta nivelo de la strukturo, analizante ĉiun datumon, tra la mezaj komponadoj al la supro de la pakaĵo aŭ derivaĵo.

jsoup estas efika solvo, kiu suferas multoblajn kompleksajn operaciojn ene de dividaj sekundoj pro ĝia rando-desegno. La procezo kutime konsistas el sinsekvo de tri bazaj stadioj de:

1. La fragmentiĝo de la eltiritaj karakteroj kaj datumoj en pli malgrandajn pakojn pli simplajn, kaj la analizon de ĉi tiuj bitoj de karakteroj kaj datumoj por krei.

2. Interpreto, kiun oni povus legi kaj kompilita per la maŝina lingvo, kiu kapablas meti la datumajn elementojn laŭ ordo de prefero kaj povas esti uzata al produkti

3. Elektronikaj esprimoj, kiuj formas pecojn de informo, kiuj estas de la postulata agordo, valoro kaj graveco al la uzanto.

jsoup estas kongrua kun kaj kapablas ekzekuti vastan strukturon de HTML-skriptoj, lingva interfaco, programoj kaj dokumenta stilo, inkluzive de la necesoj de WhatWG HTML5. Ili same kapablas solvi HTML-strukturojn al la sama Dokumenta Objekto-Modelo kiel uzaj programaj programoj uzataj por ĉerpi, navigi kaj prezenti datumojn kaj informajn rimedojn en la Monda Retejo.

jsoup havas la kapablon:

  • skrapi kaj parse HTML el URL, dosiero aŭ ĉeno
  • lokalizi kaj ĉerpi datumojn, uzante DOM-transversajn aŭ CSS-elektilojn
  • plibonigi la HTML-elementojn, atributojn kaj tekston
  • forviŝi uzanton-submetitan kontentigon kontraŭ sekura blanka listo, por eviti atakojn de XSS
  • ( 45) liveru ordonon HTML

La programaro estas konstruita por solvi ĉiun tipon de HTML sendepende de la agordo: de antaŭa kaj validiga, al nevalida etikedo-soup: jsoup kreos la deziritan parseran strukturon.

December 7, 2017
jsoup: Java HTML Scrapper - Semalt Review
Reply