Tag Archives: installare

Come installare Scrapy su Windows in 5 semplici passi

Per motivi professionali o ricreativi possiamo avere  interesse a collezionare e indicizzare dei contenuti online (es. offerte di lavoro, indirizzi email, classifiche, liste, foto etc.). Tali contenuti possono essere facilmente raccolti utilizzando dei motori di ricerca che possiamo personalizzare a nostro piacimento.

Secondo la definizione di Wikipedia:

Un crawler (detto anche web crawler,spider o robot), è un software che analizza i contenuti di una rete (o di un database) in un modo metodico e automatizzato, in genere per conto di un motore di ricerca.

Scrapy è un software open source che permette di creare i propri webcrawler. Sebbene la sua sintassi sia intuitiva, l’installazione in windows è molto complessa a causa di molti pacchetti assenti nel sistema operativo.

Sample Scrapy Code

 

Di seguito la prima guida in italiano su come procedere all’installazione in cinque semplici passi:

  1. Installate Python 2.7x: il pacchetto non è ancora supportato nelle versioni più recenti di Python (3.x). Potete cliccare di seguito per scaricare Phyton 2.79
  2. Installate Microsoft Visual C++ Compiler for Python 2.7: nell’installazione di molti componenti aggiuntivi di Python avrete probabilmente incontrato l’errore seguente: error: Unable to find vcvarsall.bat Potete scaricare direttamente dal sito di Microsoft l’estensione che vi permette di risolvere questo problema.
  3. Installate lxml: lxml è la libreria che permette di processare XML e HTML in Python. Invece di complicarvi la vita ricostruendo i pacchetti da scaricare in .tgz, potete seguire queste semplici istruzioni:
    • aprire il prompt dei comandi (cliccate sul simbolo di windows e digitate cmd)
    • eseguire il programma come amministratori ed entrate nella cartella di installazione di Python
    • (per chi non ricordasse DOS) siccome sarete ridiretti automaticamente alla cartela C:/User/[il vostro nome], è necessario digitare due volte cd.. + Invio . Da C:/ digitate cd Python27 + Invio e poi cd Scripts + Invio
    • a questo punto digitare pip install lxml e l’installazione sarà completata in pochissimo tempo.
  4. Installate pyOpenSSL e Service Identity: questi due pacchetti vi permetteranno di navigare con i vostri crawler in maniera ai protocolli crittografici più diffusi (SSL, TSL etc.). Per l’installazione dei due file dovrete scaricare i moduli sul sito del Python Package Index, ovvero pyOpenSSL e Service Identity. Per la loro installazione dovrete:
    • estrarre il contenuto degli archivi in una cartella
    • aprire il prompt dei comandi
    • entrare nella cartella in cui sono stati installati i pacchetti [suggerimento: siccom i nomi sono piuttosto lunghi e contengono le specifiche della versione di riferimento, potete richiamare semplicemente la cartella scrivendone parte del nome es. cd pyOpenS*)
    • digitare setup.py install
  5. Installate Scrapy: ora che tutti i requisiti sono soddisfatti, potete seguire le medesime istruzioni del punto 3. e digitare pip install Scrapy

Ho scritto questo articolo perché non sono un utente esperto di Python e ho incontrato moltissime difficoltà nell’installare Scrapy. Gli utilizzi che ne sono fatti sono svariati, come si può vedere anche dalle testimonianze raccolte sul sito del progetto.

Ovviamente l’installazione è solo il primo passo. Vi consiglio di seguire questo tutorial per cominciare ad avere un’idea di come muovervi una volta che Scrapy è installato.

Se avete qualche domanda, sarò lieto di provare a rispondervi. In ogni caso, sentitevi liberi di lasciare un commento per qualsiasi cosa.