|
Le scrapping de flux sous joomla avec 4RSS |
|
Écrit par Daneel le 30-11-2009
|
4RSS est utilisé pour créer automatiquement des articles à partir de flux RSS. Bien qu'il existe plusieurs autres composants similaires, celui-ci est capable de gérer un volume de données important. Depuis que lesauteurs ont développé ce composant pour leurs besoins, ils ont décidé de l'offrir à la communauté Joomla. Le scrapping de flux est une technique qui consiste à convertir un flux rss en véritable contenu comme n'importe quel autre article de votre site Joomla. C'est ce qui permet de traiter énormément d'informations sans efforts. Cependant, les dérives peuvent arriver très vite et les solutions de protection pour les auteurs existent. En cas d'abus ou de recopie illégale, il faut s'adresser par exemple à Google directement par le formulaire de spam report ou avec un avocat, de remplir une déclaration en ligne DMCA .
Àpartir du moment où il y a accord entre les sites et citation de lasource originale, ceci peut très bien être utilisé par exemple pour unportail qui rècupère les données de sujets précis sans pour autants'attirer les foudres de Google sur la duplication de données(blacklistage) ou, autre exemple, dans le cas d'un intranet composésdeplusieurs sites Joomla.
Le composant 4RSS permet justement d'importer les flux avec une extrême facilité. Ceci pouvant être programmé automatiquement (cronjob). Les informations peuvent être filtrées par mots clés et les articles pouvent être définis dans la section et catégorie de votre choix. Un test a été effectué avec succès sur l'importation de 5000 articles.
Les conseils d'utilisation :
- avoir l'accord des URL source. Respecter les droits des auteurs selon les articles L111-1 et L122-4 du Code de la Propriété Intellectuelle. Surtout si vous souhaitez monétiser votre site (par exemple avec des adsenses) ;
- toujours citer en bas du texte la source et la suite de l'article avec le lien url correspondant ;
- actualiser régulièrement soit manuellement soit avec l'aide d'une tâche programmée (cronjob).
|
Il manque sûrement un système de filtre qui permettrait de traiter les flux en amont. Je n'ai pas tester 4rsscron qui fait des mises à jours automatiques du contenu. A surveiller aussi car si le but est de créer du contenu pour être mieux lu par les moteurs de recherche, soyons vigilants et ne laissons pas paraître n'importe quoi sur notre site. C'est au final beaucoup de travail de filtrage et de nettoyage. Le métier de rédacteur et journaliste en prend un coup. A voir si ce composant va faire long feu car ça risque de grincer des dents dans le landerneau du web rédactionnel.
Sur ce...