Semalt pripravlja URLitor - zelo kul orodje za spletno strganje in pridobivanje podatkov

URLitor je novo, vendar učinkovito spletno strganje in pridobivanje podatkov. Če želite uporabljati URLitor, morate dodati priložen seznam vseh URL-jev, katerih vsebino želite spletati po spletu. Nato morate določiti element HTML, ki ga želite izvleči s spletnih strani, in kliknite gumb za pošiljanje. Tako enostavno je. S tem orodjem vam ni treba več kopirati ali prilepiti iz brskalnika.
xPath je jezik, ki se uporablja za iskanje informacij v datotekah XML. Uporablja določene izraze za izbiro nizov vozlišč ali vozlišč v datotekah XML. Izrazi, ki jih XPath razume, so precej podobni izrazom, ki se uporabljajo pri običajnih računalniških datotekah ali dokumentih.

Čeprav se XPath uporablja z več programskimi jeziki, je to orodje zasnovano za uporabnike, ki nimajo nobenega znanja o programiranju. Torej vam ni treba biti programer, da ga lahko izkoristite. S tem orodjem lahko izvlečete podatke z več strani HTML in XML.
Zaradi enostavnosti uporabe je bilo več pogosto uporabljenih izrazov XPath vnaprej določeno v spustnem meniju, tako da bodo uporabniki morali izbrati le katerega koli od njih, odvisno od svojega cilja. Vendar pa izkušeni uporabniki XPath lahko kadar koli želijo uporabljati svoje izraze po meri.
Orodje je bilo zasnovano z zmogljivostjo 100 URL-jev v eni seji strganja in naenkrat sprejme največ 10 izrazov. Z drugimi besedami, hkrati lahko strga podatke z največ 100 naslovov URL.
Spodaj so opisani nekateri pomembni izrazi po meri XPath, ki jih je mogoče spremeniti ali dodati:
1. // div [2] - ta izraz izbere drugi div hierarhično;
2. // povezava [@ rel = 'canonical'] / @ href - ta izraz izbere lokacijo (ref) oznake, ki se uporablja za nastavitev atributa rel, ki je enak kanoničnemu;
3. / html / head / meta [@ name = 'description'] / @ content - Ta izraz se uporablja za izbiro vsebine;
4. // * [@ class = 'class-name'] - s tem izrazom lahko izberete vse elemente z 'class-name' kot CSS razred;
5. // h2 | // naslov - s tem izrazom lahko izberete prvi H2 in naslov strani;
6. // * [ime () = 'h1' ali ime () = 'naslov'] - Ta izraz deluje točno tako kot zgoraj. Vendar je izraz, predstavljen zgoraj, boljši, saj je krajši;
7. // * [vsebuje (@class, 'palec')] - ta izraz izbere vsak element, ki ima razred CSS in vsebuje tudi 'palec' za ekstrakcijo;
8. // nadrejeni :: * [text () = 'Dobrodošli'] - ta izraz izbere nadrejenega katerega koli elementa, ki vsebuje besedilo "Dobrodošli";
To orodje je različica Beta in lahko še vedno deluje z nekaterimi napakami. Vendar je še vedno odlično orodje za uporabnike z malo ali brez programskega znanja, saj so bili vsi pogosto uporabljeni izrazi vnaprej določeni v meni, kot smo že omenili.