©  Domov ©  Hľadanie ©  Registrovať ©  Reklama ©  BanList ©  Kontakt ©    

Máme 779500 Používateľov a 586488 Príspevkov
 
26 Apr 2019, 04:57
Reklama : 1 | 0
srand(); $reklama = rand (5,7); srand();



Web scraper cez mikrokontroléry

  • Strana:
  • 1
Web scraper cez mikrokontroléry  (Prečítané 7792 krát)
Autor Príspevok

*


Cucaj Rank : 355
karma +3/-0
Príspevkov : 16
Referal body : 2
SMS Body : 0

Zobraziť profil
#0

| 25 Nov 2018, 01:29

Ahoj Pcforumisti, dnes článok opäť z mikrokontrolérov. Konkrétne sa budem baviť o spôsobe, akým som z mikrokontroléru spravil webscraper. (Ak sa to tak dá nazvať pri spracovaní informácii vlastným backendom)
Ako mnohí z vás viete, web scraper je zariadenie, ktoré plní úlohu získavania informácii z danej webovej lokality.  Medzi najžiadanejšie informácie z webových lokalít sú e-mailové adresy, telefónne čísla. V poslednej dobe sa ale tento fenomén používa aj na rôzne štatistické úlohy, kedy web scraper získava údaje o produktoch, ich cene a tie vyhodnocuje.

Dokonca sa podobné zariadenia využívajú a to ako roboty na obchodovanie s kryptomenami, či bežnými menami. Robot v najvhodnejší čas(štatisticky) pedal a nakúpil inú - vhodnú menu so stúpajúcou tendenciou. V mojom prípade som sa zaujímal o získavanie informácii z webov a to konkrétne telefónnych čísel a e-mailových adries.

Prejdem teda priamo k realizácii. Využil som 3 druhy mikrokontrolérov. Pre weby na nešifrovanom HTTP protokole som použil Arduino s Ethernet shieldom (podporuje iba HTTP spojenia), pre weby pod HTTPS protokolom som použil dosku NodeMCU s integrovaným čipom ESP8266 a taktiež aj ESP32 Devkit v1 DOIT. ESP32 má oproti ESP8266 výhodu v tom, že disponuje dvomi jadrami, rýchlejšími o 160MHz, má o takmer 400kB viac RAM a je možné túto dosku napojiť aj do podnikových sietí pod protokolom 802.1x (WPA/WPA2 Enterprise).

Funkčnosť všetkých troch menovaných dosiek je až morbídne jednoduchá. Ich úlohou je iba pripojiť sa na cieľový web, odkiaľ chceme informácie získať a zdrojový kód po riadkoch posielajú na môj web, kde sa tieto informácie spracujú a za pomoci regulárneho výrazu získam informácie, ktoré potrebujem. Nakoľko dosky nedokážu spustiť client-side script, teda Javascript, tak sú chránené pre JS aplikáciami na vyhľadávanie scraperov, iné zariadenia typu Rpi dokážu zaznamenať, pretože pri emulácii prehliadača tieto scripty spustia. Moje dosky sa nezobrazia v Google Analytics, či sledovanom nástroji Smartlook a pod.

Jediná možnosť zaznamenať informácie o doske, že na stránke bola (vykonala GET request)je cez PHP kód, alebo iný serverovo orientovaný jazyk, na ktorý bol request vykonaný.  Je možné pristupovať na rôzne verzie HTTP hlavičiek od 1.0 cez 1.1 a s novšími doskami ESP32 aj na HTTP /2 - podľa podpory cieľového webu. Na mojom webe spracúvavam riadky zdrojového kódu iného webu cez PHP, kde mám vyskladaný requlárny výraz, ktorý som postupne vylepšoval a dnes som schopný zaznamenať tieto druhy e-mailových adries, ktoré sa na weboch vyskytujú v rôznych formátoch, ktoré ich majú uchrániť pred získaním robotmi, scrapermi, crawlermi.

Doskám neprekáža ani obsah za prihlásením, dokážu sa prihlásiť na web ako štandardný používateľ prostredníctvom HTTP Autentizácie - ak to host povoľuje. Postupom času je možné vytvoriť aj pokročilé aplikácie na záznam štatistických údajov z daného webu. Napríklad teplota z niektorej meteo stránky, kurz bitcoinu, štatistika športových zápasov a pracovať s týmito dátami je možné po celé roky.

Jednu stránku môže prehliadať aj niekoľko dosiek súčasne, obecne používam jednu návštevu raz za 6 - 24 hodín, ak sa jedná napríklad o stránky týkajúce sa správ, z čoho je možné následne tvoriť RSS feed, ktorý sa dá umiestniť na môj web, alebo mať podobné využitie. Spracované údaje sa môžu okamžite ukladať do databázy, tabuliek v xml, či csv formáte a tie použiť prakticky ihneď.

Dúfam, že sa vám článok páčil a naučili ste sa jedno z nových využití Arduina, ESP dosiek a otvoreného hardvéru celkovo. Získavanie dát je dnes žiadané a možno tento spôsob získavania dát bude mať za následok v budúcnosti vybudovanie fariem, kde sa podobný hardvér na získavanie využije a spracovanie dát prebehne už v backende danej farmy, ktorá môže s dátami obchodovať, tvoriť miliónové zoznamy e-mailových adries, telefónnych čísel.
*Použitie dát z iného webu a ich sťahovanie musí byť povolené aj z druhej strany Úsmev
Niečo viac o mojom scraperi na NodeMCU: Ako hosť nemáte oprávnenie prezerať obsah na stiahnutie.
Registrujte sa alebo sa prihláste
https://arduino.php5.sk/web-scraper.php

Na čítanie obsahu webu stačí použiť príklad Webclienta (Arduino) a upraviť si ho podľa seba: Ako hosť nemáte oprávnenie prezerať obsah na stiahnutie.
Registrujte sa alebo sa prihláste
https://www.arduino.cc/en/Tutorial/WebClient

(ESP8266 HTTP): Ako hosť nemáte oprávnenie prezerať obsah na stiahnutie.
Registrujte sa alebo sa prihláste
https://github.com/esp8266/Arduino/blob/master/libraries/ESP8266WiFi/examples/WiFiClient/WiFiClient.ino

(ESP8266 HTTPS): Ako hosť nemáte oprávnenie prezerať obsah na stiahnutie.
Registrujte sa alebo sa prihláste
https://gist.github.com/9SQ/200c796672b0f4db173e

(ESP32 HTTP): Ako hosť nemáte oprávnenie prezerať obsah na stiahnutie.
Registrujte sa alebo sa prihláste
https://github.com/espressif/arduino-esp32/blob/master/libraries/WiFi/examples/WiFiClient/WiFiClient.ino

(ESP32 HTTPS): Ako hosť nemáte oprávnenie prezerať obsah na stiahnutie.
Registrujte sa alebo sa prihláste
https://github.com/espressif/arduino-esp32/blob/master/libraries/WiFiClientSecure/examples/WiFiClientSecure/WiFiClientSecure.ino

(ESP32 pod 802.1x HTTP): Ako hosť nemáte oprávnenie prezerať obsah na stiahnutie.
Registrujte sa alebo sa prihláste
https://github.com/espressif/arduino-esp32/blob/master/libraries/WiFi/examples/WiFiClientEnterprise/WiFiClientEnterprise.ino

Pošli priateľom na FaceBooku
Linka:  
  • Strana:
  • 1

Web scraper cez mikrokontroléry

V sekcii najdete linky na rapidshare, upnito, hellshare zadarmo

Skočiť na:  
Téma od Na vrch

Stránka vytvorená za 0.06 sekund, 20 otázok.
Cucaj.sk© | Poháňané SMF 1.1.11.
© 2005-2009, Simple Machines LLC. Všetky práva vyhradené.
Upozornenie: žiadny zo zobrazovaných súborov sa nenachádza na tomto serveri.
Autor stránky neberie žiadnu zodpovednosť za príspevky odoslané uživateľmi. Nepoužívajte
tieto stránky k distribúcii alebo k downloadu akýchkoľvek materiálov, ku ktorým nemáte
legálne opravnenie alebo licenciu. Všetky príspevky sem vkladáte na vlastnú zodpovednosť
Autor stránky odmieta akúkoľvek zodpovednosť za prípadne porušovanie zákonov.
Kopírovanie obsahu bez písomného súhlasu autora stránky je trestné.