IdentifiantMot de passe
Loading...
Mot de passe oubli� ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les r�ponses en temps r�el, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

Extraire les donn�es selon la m�thode du web scraping


Sujet :

Python

  1. #1
    Candidat au Club
    Femme Profil pro
    �tudiant
    Inscrit en
    Octobre 2018
    Messages
    3
    D�tails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : Tunisie

    Informations professionnelles :
    Activit� : �tudiant

    Informations forums :
    Inscription : Octobre 2018
    Messages : 3
    Par d�faut Extraire les donn�es selon la m�thode du web scraping
    Bonjour tout le monde, je suis une �tudiante � la facult� des sciences �conomiques et de gestion de Tunis, et je fais un mast�re de recherche en finance. Mon m�moire se porte sur les d�terminants du crowdfunding et ses perspectives de d�veloppement en Tunisie. En absence de r�ponse de la part la plateforme tunisienne Cofundy, j'ai besoin pour formuler la base de donn�es de mon sujet, d'extraire les donn�es selon la m�thode du web scraping gr�ce � un programme cod� en python et le logiciel scrapy.org. je vous prie svp de m'aider, je n'ai aucune connaissance en informatique. Merci D'avance.

    Ci-joint les URL des projets dont je dois extraire les donn�es
    1. https://www.cofundy.com/index.php?r=...Fdetail&id=254
    2. https://www.cofundy.com/index.php?r=...Fdetail&id=113
    3. https://www.cofundy.com/index.php?r=.../detail&id=257
    4. https://www.cofundy.com/index.php?r=...Fdetail&id=151
    5. https://www.cofundy.com/index.php?r=.../detail&id=465
    6. https://www.cofundy.com/index.php?r=.../detail&id=338
    7. https://www.cofundy.com/index.php?r=.../detail&id=318
    8. https://www.cofundy.com/index.php?r=.../detail&id=330
    9. https://www.cofundy.com/index.php?r=.../detail&id=318
    10. https://www.cofundy.com/index.php?r=.../detail&id=151
    11. https://www.cofundy.com/index.php?r=projet/detail&id=90
    12. https://www.cofundy.com/index.php?r=.../detail&id=296
    13. https://www.cofundy.com/index.php?r=.../detail&id=224
    14. https://www.cofundy.com/index.php?r=.../detail&id=209
    15. https://www.cofundy.com/index.php?r=.../detail&id=258
    16. https://www.cofundy.com/index.php?r=.../detail&id=142
    17. https://www.cofundy.com/index.php?r=.../detail&id=143
    18. https://www.cofundy.com/projects/6fd...lidarite-maroc
    19. https://www.cofundy.com/index.php?r=...Fdetail&id=108
    20. https://www.cofundy.com/projects/565...497e89ca/jwebi
    21. https://www.cofundy.com/index.php?r=...2Fdetail&id=91

  2. #2
    Membre prolifique
    Avatar de Sve@r
    Homme Profil pro
    Ing�nieur d�veloppement logiciels
    Inscrit en
    F�vrier 2006
    Messages
    12 850
    D�tails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activit� : Ing�nieur d�veloppement logiciels
    Secteur : A�ronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : F�vrier 2006
    Messages : 12 850
    Billets dans le blog
    1
    Par d�faut
    Bonjour

    La majeure partie de tes URL sont invalides. J'en ai toutefois trouv� deux https://www.cofundy.com/projects/565...497e89ca/jwebi et https://www.cofundy.com/projects/6fd...lidarite-maroc mais elles m�nent sur une description je ne vois pas, dans ces pages, quelles donn�es tu veux extraire.

    Citation Envoy� par sarra216 Voir le message
    je n'ai aucune connaissance en informatique.
    Ah ben c'est pas gagn� alors. Parce que quoi qu'il arrive, "aider" ne veut pas dire "faire le boulot � ta place".
    Mon Tutoriel sur la programmation �Python�
    Mon Tutoriel sur la programmation �Shell�
    Sinon il y en a pleins d'autres. N'oubliez pas non plus les diff�rentes faq disponibles sur ce site
    Et on poste ses codes entre balises [code] et [/code]

  3. #3
    Candidat au Club
    Femme Profil pro
    �tudiant
    Inscrit en
    Octobre 2018
    Messages
    3
    D�tails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : Tunisie

    Informations professionnelles :
    Activit� : �tudiant

    Informations forums :
    Inscription : Octobre 2018
    Messages : 3
    Par d�faut
    Bonjour,
    le prb qui se pose c'est que je dois extraire les donn�es depuis les URL invalides, car Cofundy cache les projets �chou�s. je les ai trouv� sur leur page fb officiel au moment de la collecte de fonds. Concernant les URL qui fonctionnent, le d�but de la collecte n'est pas mentionn�, je ne peux donc pas calculer la dur�e de la compagne de collecte et aussi je dois savoir si un individus � contribuer dans le palier le plus �lev� et rien n'est publi�. En fait apr�s des recherches j'ai pu extraire certaines donn�es de 8 projets mais je ne suis pas sure quant � la exactitude de certaines variables. C'est la raison pour la quelle j'ai demand� votre aide. J'ai consult� plusieurs ing�nieurs en informatique mais aucun n'as pu m'aider.

  4. #4
    Membre exp�riment�
    Profil pro
    Loisir
    Inscrit en
    Novembre 2011
    Messages
    159
    D�tails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activit� : Loisir

    Informations forums :
    Inscription : Novembre 2011
    Messages : 159
    Par d�faut
    En gros tu nous demandes de l'aide pour hacker une base de donn�es � laquelle seule la plateforme � acc�s et qui contiendrait des informations sur les contributeurs . C'est ill�gal. Tu dois demander l'accord � la plateforme pour avoir acc�s � la base de donn�es anonymis�e. Normal que tu n'aies pas trouver d'aide. Je pense que tu n'en auras pas non plus ici.

  5. #5
    Candidat au Club
    Femme Profil pro
    �tudiant
    Inscrit en
    Octobre 2018
    Messages
    3
    D�tails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : Tunisie

    Informations professionnelles :
    Activit� : �tudiant

    Informations forums :
    Inscription : Octobre 2018
    Messages : 3
    Par d�faut
    Je ne pensais pas que c'�tais ill�gale, les donn�es ont �t� publi� au moment de la collecte, mais une fois la date pass� la plateforme change les URL et publie les donn�es souhait� et masque aux internautes les projets �chou�s. De plus, j'ai trouv� cette m�thode dans un m�moire d'un �tudiant fran�ais https://dumas.ccsd.cnrs.fr/dumas-01092302/document ( page 32). les ing�nieurs que j'ai consult� ne sont pas experts dans le langage python personne ne m'as pr�venu que c'est ill�gale. En tout cas merci de m'avoir r�pondu et inform� de cela.

  6. #6
    Membre Expert

    Homme Profil pro
    Ing�nieur calcul scientifique
    Inscrit en
    Mars 2013
    Messages
    1 229
    D�tails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Alpes Maritimes (Provence Alpes C�te d'Azur)

    Informations professionnelles :
    Activit� : Ing�nieur calcul scientifique

    Informations forums :
    Inscription : Mars 2013
    Messages : 1 229
    Par d�faut
    Il vous faut s�parer les taches et les probl�mes. Faire du webscrapping pour r�cup�rer des infos sur un site � une url donn�es est une chose, et c'est l�gale. Faire une liste d'URL toutes valides pour votre projet en est une autre. Que le site donnent acc�s � des infos et coupe cette acc�s suite � un �v�nement (comme l'�chec du projet par exemple) alors ca s'en est encore un autre. Et soit le site laisse les infos mais les changent d'adresse (donc l�, � vous de trouvez ces adresses, et dans ce cas ce n'est pas que le site coupe l'info, mais il l'archive en changeant l'url), soit le site coupe vraiment l'info et � part leur demander l'autorisation ou l'acc�s � ces infos effectivement vous n'aurez rien (et tout moyen d�tourn� qui vous donnerais qqch en effet est ill�gal).

    Apr�s rien ne vous emp�che de lancer votre script r�guli�rement (quotidiennement?) sur les projets disponibles du moment. Comme ca quand un projet ferme, et bien vous l'avez gardez vous en m�moire de votre c�t�. C'est ce qui semble avoir �t� fait dans le stage du le lien que vous donn�.

  7. #7
    Membre exp�riment�
    Profil pro
    Loisir
    Inscrit en
    Novembre 2011
    Messages
    159
    D�tails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activit� : Loisir

    Informations forums :
    Inscription : Novembre 2011
    Messages : 159
    Par d�faut
    Merci � lg_53 qui clarifie mon message.

    Concernant le webscrapping, il faut aussi v�rifier les conditions. Par exemple o'reilly accepte la pratique si un d�lai de 30 secondes est respect� entre deux url test�es. Dans certains cas, ne pas rester cette condition peut �tre consid�rer comme ill�gal.

  8. #8
    Expert confirm� Avatar de BufferBob
    Profil pro
    responsable R&D vidage de truites
    Inscrit en
    Novembre 2010
    Messages
    3 041
    D�tails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activit� : responsable R&D vidage de truites

    Informations forums :
    Inscription : Novembre 2010
    Messages : 3 041
    Par d�faut
    salut,

    Citation Envoy� par sarra216 Voir le message
    Je ne pensais pas que c'�tais ill�gale
    comme indiqu� par la suite, �a n'est absolument pas ill�gal

    en revanche il est toujours de bon ton d'aller lire les conditions g�n�rales d'utilisation ("CGU" ou "ToS" en anglais) pour voir s'il n'est pas explicitement pr�cis� que les robots et/ou traitements automatis�s sont interdits
    par ailleurs le site peut parfois fournir une API pour acc�der facilement � ses donn�es (et cette API imposer un timeout pour �viter de se faire inonder de requ�tes)

    en l'occurrence sur CoFundy il n'y a rien qui met en garde contre l'utilisation d'un robot ou le fait de scraper tout ou partie du site

    en analysant rapidement la page discover o� sont list�s tous les projets, d�j� on remarque que des projets il y en a 17, pas un de plus, donc au pire et dans ce cas tr�s pr�cis �a peut �ventuellement se r�cup�rer directement � la main, �a prend 5 min max.
    mais en admettant que l'on veuille automatiser tout �a, on se rend compte que le bouton "charger plus de projets" r�clame au serveur une URL du style :
    Code : S�lectionner tout - Visualiser dans une fen�tre � part
    https://www.cofundy.com/project/load-more/SUCCEEDED/4/4
    et l� �a devient plus simple; les deux derniers num�ros dans l'url correspondent respectivement au num�ro du projet et au nombre de r�sultats � renvoyer, ainsi la requ�te https://www.cofundy.com/project/load-more/SUCCEEDED/8/4 va r�cup�rer les 4 prochains projets (la deuxi�me page), et si on l'on r�clame directement https://www.cofundy.com/project/load-more/SUCCEEDED/0/100 on r�cup�re d'un seul coup les 100 premiers projets, ce qui ici est largement suffisant

    ce que l'on r�cup�re (donc avec curl, wget ou autre script python) c'est du HTML, dans lequel on remarque une structure r�currente du style :
    Code HTML : S�lectionner tout - Visualiser dans une fen�tre � part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    <div class="col-sm-3 margin-bottom30">
       <div class="project-item small-project">
          <div class="project-thumbnail small-thumbnail">
             <a href='/projects/7694ac5d-b900-4e9d-a6b4-c382541f2a14/le-lemon-tour--se-deplacer-autrement-pour-visiter-differemment--'>
             <img src="https://api.particeep.com/document/b5f5490b-7b58-4f71-ac26-e9fe40419233" alt="Le Lemon tour, se déplacer autrement pour visiter différemment !">
             <div class="project-image-hover">
                <div class=project-image-hover_content>
                   <span>Voir le projet</span>
                </div>
             </div>
             </a>
          </div>
       <div class="project-content">
          <h5 class="project-title"><a href='/projects/7694ac5d-b900-4e9d-a6b4-c382541f2a14/le-lemon-tour--se-deplacer-autrement-pour-visiter-differemment--'>Le Lemon tour, se déplacer autrement pour visiter différemment !</a></h5>
          <p class="project-description">Participez au Lemon Tour, visite de découverte à vélo du patrimoine tunisien d&#x27;hier et d&#x27;aujourd&#x27;hui!</p>
       </div>
       <div class="project-footer">
          <div class="project-infos">
             <!-- If is RUNNING -->
             <div class="text-center">
                <p class="nomargin-bottom"><b>Projet financé avec succès</b></p>
                <p>Montant levé : 6*085 €</p>
             </div>
          </div>
       </div>
    </div>

    reste � isoler dans ce code HTML les donn�es qui nous int�ressent, le module BeautifulSoup est un candidat de choix, un bref exemple :
    Code : S�lectionner tout - Visualiser dans une fen�tre � part
    1
    2
    >>> [i.text for i in soup.find_all(attrs={'class': 'project-title'})]
    ['Le Lemon tour, se déplacer autrement pour visiter différemment !', 'Festival des Arts Urbains "JAM Session #4"', 'Cimetière pour les migrants', 'Exclusive Tunisia', 'Maternelle Afoulki', "Sourires d'enfants", 'Codesol Artisanat Kabyle', 'C.A.T.S', 'Darna', 'La révolution en laine', 'Espoir de vacances', 'Dembe', 'Tous pour la Rachidia', 'Ecole Chafaï', 'Les roses de la thyroïde', 'Solidarité Maroc', 'Jwebi']

Discussions similaires

  1. R�ponses: 22
    Dernier message: 11/04/2014, 02h48
  2. extraire les donn�es d'une page web
    Par mour92 dans le forum VBScript
    R�ponses: 7
    Dernier message: 10/04/2012, 16h42
  3. [XL-2007] extraire des donn�es selon leur nature et les r�integrer classees
    Par tchock_nenette dans le forum Excel
    R�ponses: 9
    Dernier message: 08/04/2012, 14h06
  4. extraire les donn�es d'un site web par HTMLPARSER
    Par sihammaster dans le forum VB.NET
    R�ponses: 2
    Dernier message: 05/04/2010, 16h30
  5. [RegEx] extraire les liens hypertexte d'une page web
    Par lalama dans le forum Langage
    R�ponses: 1
    Dernier message: 22/03/2006, 10h43

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo