Come installare Scrapy su Windows in 5 semplici passi

Per motivi professionali o ricreativi possiamo avere  interesse a collezionare e indicizzare dei contenuti online (es. offerte di lavoro, indirizzi email, classifiche, liste, foto etc.). Tali contenuti possono essere facilmente raccolti utilizzando dei motori di ricerca che possiamo personalizzare a nostro piacimento.

Secondo la definizione di Wikipedia:

Un crawler (detto anche web crawler,spider o robot), è un software che analizza i contenuti di una rete (o di un database) in un modo metodico e automatizzato, in genere per conto di un motore di ricerca.

Scrapy è un software open source che permette di creare i propri webcrawler. Sebbene la sua sintassi sia intuitiva, l’installazione in windows è molto complessa a causa di molti pacchetti assenti nel sistema operativo.

Sample Scrapy Code

 

Di seguito la prima guida in italiano su come procedere all’installazione in cinque semplici passi:

  1. Installate Python 2.7x: il pacchetto non è ancora supportato nelle versioni più recenti di Python (3.x). Potete cliccare di seguito per scaricare Phyton 2.79
  2. Installate Microsoft Visual C++ Compiler for Python 2.7: nell’installazione di molti componenti aggiuntivi di Python avrete probabilmente incontrato l’errore seguente: error: Unable to find vcvarsall.bat Potete scaricare direttamente dal sito di Microsoft l’estensione che vi permette di risolvere questo problema.
  3. Installate lxml: lxml è la libreria che permette di processare XML e HTML in Python. Invece di complicarvi la vita ricostruendo i pacchetti da scaricare in .tgz, potete seguire queste semplici istruzioni:
    • aprire il prompt dei comandi (cliccate sul simbolo di windows e digitate cmd)
    • eseguire il programma come amministratori ed entrate nella cartella di installazione di Python
    • (per chi non ricordasse DOS) siccome sarete ridiretti automaticamente alla cartela C:/User/[il vostro nome], è necessario digitare due volte cd.. + Invio . Da C:/ digitate cd Python27 + Invio e poi cd Scripts + Invio
    • a questo punto digitare pip install lxml e l’installazione sarà completata in pochissimo tempo.
  4. Installate pyOpenSSL e Service Identity: questi due pacchetti vi permetteranno di navigare con i vostri crawler in maniera ai protocolli crittografici più diffusi (SSL, TSL etc.). Per l’installazione dei due file dovrete scaricare i moduli sul sito del Python Package Index, ovvero pyOpenSSL e Service Identity. Per la loro installazione dovrete:
    • estrarre il contenuto degli archivi in una cartella
    • aprire il prompt dei comandi
    • entrare nella cartella in cui sono stati installati i pacchetti [suggerimento: siccom i nomi sono piuttosto lunghi e contengono le specifiche della versione di riferimento, potete richiamare semplicemente la cartella scrivendone parte del nome es. cd pyOpenS*)
    • digitare setup.py install
  5. Installate Scrapy: ora che tutti i requisiti sono soddisfatti, potete seguire le medesime istruzioni del punto 3. e digitare pip install Scrapy

Ho scritto questo articolo perché non sono un utente esperto di Python e ho incontrato moltissime difficoltà nell’installare Scrapy. Gli utilizzi che ne sono fatti sono svariati, come si può vedere anche dalle testimonianze raccolte sul sito del progetto.

Ovviamente l’installazione è solo il primo passo. Vi consiglio di seguire questo tutorial per cominciare ad avere un’idea di come muovervi una volta che Scrapy è installato.

Se avete qualche domanda, sarò lieto di provare a rispondervi. In ogni caso, sentitevi liberi di lasciare un commento per qualsiasi cosa.

2 thoughts on “Come installare Scrapy su Windows in 5 semplici passi

  1. Post scriptum 2.
    I problemi causati da vcvarsall.bat mancante sono dovuti all’assenza sul computer di un compilatore per montare i pacchetti scritti in C.

    Avendo fronteggiato problemi simili anche nell’installazione di altre librerie (ad es. lxml), una soluzione efficace ma non ottimale può essere l’installazione di Visual Studio Community Edition.

    Il programma tuttavia occupa almeno 6 gb e se non lo usate è un po’ uno spreco di spazio.

    Ci sono tuttavia diversi siti internet su cui potete trovare pacchetti (per lo più ad uso scientifico) compilati come wheel. Riporto ad esempio il mio preferito:
    http://www.lfd.uci.edu/~gohlke/pythonlibs/

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s