Back to Question Center
0

Reteja Scrapado Klarigita de Semalt-Fakulo

1 answers:

Reteja skrapado estas simple la procezo de evoluigado de programoj, robotoj aŭ bots kiu povas ĉerpi enhavojn, datumojn kaj bildojn de retejoj. Dum la ekrano-skrapado nur povas kopii pikselojn montritajn surscreen, retrapado kraĉas ĉiun HTML-kodon kun ĉiuj datumoj konservitaj en datumbazo. Ĝi povas tiam produkti replikon de la retejo aliloke.

Ĉi tio estas kiala retejo skrapado nun estas uzata en ciferecaj komercoj, kiuj postulas rikoltadon de datumoj. Kelkaj leĝaj uzoj de retrapistoj estas:

1. Esploristoj uzas ĝin por ĉerpi datumojn de sociaj amaskomunikiloj kaj forumoj.

2. Firmaoj uzas bots por ĉerpi prezojn de retejoj de konkurantoj por prezo kompare.

3. Serĉaj motoro-bots-raŭtaj ejoj regule por la celo ranking.

Scraper-iloj kaj botoj

Retejoj pri skrapado estas programaro, programoj kaj programoj, kiuj filtras tra datumbazoj kaj forigas iujn datumojn. Tamen, la plimulto de la skrapistoj estas desegnitaj por fari la sekvajn:

  • Elpreni datumojn de APIoj
  • Konservi ĉerpitajn datumojn
  • Transformo eltiritajn datumojn
  • Identigi unikan HTML-strukturoj

Ĉar ambaŭ leĝaj kaj malicaj bots utilas la saman celon, ili ofte estas identaj. Jen kelkaj manieroj diferenci unu de la alia.

Leĝaj skrapistoj povas esti identigitaj kun la organizaĵo, kiu posedas ilin. Ekzemple, Google-bots indikas, ke ili apartenas al Google en sia HTTP-kaplinio. Aliflanke, malbonaj bots ne povas esti ligitaj al iu ajn organizo.

Leĝaj robotoj laŭigas la roboton de la retejo..txt-dosiero kaj ne preterpasas la paĝojn, kiujn ili rajtas skrapi. Sed malbonaj robotoj malobservas la instrukcion kaj skrapadon de la operatoro de ĉiu retpaĝaro.

Funkciistoj devas investi multajn rimedojn en serviloj por ke ili povu skrapi multan datumon kaj ankaŭ procesi ĝin. Tial kelkaj el ili ofte recurre al la uzo de botneto. Ili ofte infektas geografie dissemitajn sistemojn kun la sama malware kaj kontrolas ilin de centra loko. Jen kiel ili povas skrapi grandan kvanton da datumoj je multe pli malalta kosto.

Prezo skrapanta

Aŭtoro de ĉi tiu speco de malica scrapado uzas botneton, de kiu skrapaj programoj estas uzataj por skrapi la prezojn de konkurantoj. Lia ĉefa celo estas subaĉeti siajn konkurantojn ĉar pli malalta kosto estas la plej gravaj faktoroj konsideritaj de klientoj. Bedaŭrinde, viktimoj de prezo skrapado daŭre renkontos perdon de vendoj, perdo de klientoj, kaj perdo de enspezoj, dum la krimuloj daŭre ĝuos pli da mondonacoj.

Enhavo Skrapado

Enhavo skrapado estas grandskala neleĝa skrapado de enhavo de alia retejo. Viktimoj de ĉi tiu speco de ŝtelo estas kutime kompanioj kiuj dependas de interretaj produktaj katalogoj por sia komerco. Retejoj, kiuj funkciigas sian komercon kun ciferecaj enhavo, ankaŭ inklinas kontraktadon. Bedaŭrinde, ĉi tiu atako povas esti devastiga por ili.

Reteja Skrapado-Protekto

Ĝi iomete ĝenas, ke la teknologio adoptita de malica scrapado-krimuloj faris multajn sekurecajn mezurojn senutilaj. Por mildigi la fenomenon, vi devas adopti la uzon de Imperva Incapulo por certigi vian retejon. Ĝi certigas, ke ĉiuj vizitantoj al via retejo estas laŭleĝaj.

Jen kiel funkcias Imperva Incapsula

Ĝi komenciĝas la konfirma procezo kun granula inspektado de HTML-titoloj. Ĉi tiu filtrado determinas, se vizitanto estas homa aŭ bot kaj ĝi ankaŭ determinas ĉu la vizitanto estas sekura aŭ malica.

IP-reputacio ankaŭ povas esti uzata. IP-datumoj estas kolektitaj de atakaj viktimoj. Vizitoj de iu ajn el la IPoj estos submetataj al pli malkribrigado.

Kutima ŝablono estas alia metodo por identigi malbonajn botojn. Ili estas tiuj, kiuj okupas la superfortan indicon de la peto kaj amuzaj foliumaj mastroj. Ili ofte klopodas tuŝi ĉiun paĝon de retejo en tre mallonga periodo. Tia ŝablono estas tre suspektema.

Progresivaj defioj, kiuj inkluzivas kuketan subtenon kaj JavaScript ekzekuton ankaŭ povas esti uzataj por filtri robotojn. Plej multaj kompanioj recurre al la uzo de Captcha por kapti botojn provante personecigi homojn.

December 7, 2017
Reteja Scrapado Klarigita de Semalt-Fakulo
Reply