Reddit poursuit Perplexity AI pour le scraping non autorisé de données utilisé pour entraîner ses systèmes d'IA, mettant en lumière les batailles juridiques sur le droit d'auteur du contenu et les pratiques d'approvisionnement en données pour l'IA.

Reddit a poursuivi Perplexity AI et des entreprises de scraping de données pour la récolte non autorisée de contenu Reddit destinée à l'entraînement de l'IA, soulevant des questions sur la propriété des données dans l'IA. Ce procès sur les données d'entraînement de l'IA met en lumière des litiges juridiques importants concernant le droit d'auteur du contenu.
Les documents judiciaires montrent que Reddit a envoyé une mise en demeure, mais Perplexity a multiplié par quarante l'utilisation des données. Le procès indique que le moteur de réponse IA de Perplexity dépend des discussions Reddit, mettant en évidence les tensions dans les chatbots IA et les systèmes automatisés. Perplexity a travaillé avec des scrapeurs sans autorisation, contrairement aux accords de Reddit avec Google et OpenAI pour les API et SDK IA.
C'est le deuxième procès de Reddit contre des entreprises d'IA, montrant une tendance à protéger le contenu et à établir des précédents pour l'accès payant aux données. Pour les développeurs utilisant des outils de scraping web ou d'extraction de données, cela rappelle les limites légales. Perplexity nie les allégations et se défendra ; l'issue pourrait affecter l'acquisition de données d'entraînement de l'IA et les agents et assistants IA.
Le cas Reddit contre Perplexity définit comment les entreprises d'IA peuvent utiliser le contenu en ligne pour l'entraînement. Au fur et à mesure que l'IA évolue, des directives claires sur l'approvisionnement en données sont cruciales, influençant les plateformes d'automatisation IA et les droits de propriété intellectuelle à l'ère de l'IA.
Reddit poursuit Perplexity AI pour avoir présumément scrapé le contenu de Reddit sans autorisation afin d'entraîner ses systèmes d'IA, contournant les protections et accédant à du matériel protégé par le droit d'auteur à grande échelle malgré la réception d'une lettre de mise en demeure.
Ce procès pourrait établir des précédents importants sur la manière dont les entreprises d'IA accèdent légalement aux données d'entraînement, exigeant potentiellement des accords de licence formels au lieu du scraping non autorisé, ce qui pourrait affecter les coûts et les pratiques d'innovation en IA.
Le procès pourrait entraîner des amendes, des injonctions contre le scraping de données ou établir de nouvelles normes juridiques pour l'accès aux données d'entraînement de l'IA, exigeant potentiellement des accords de licence formels pour les entreprises d'IA.
D'autres entreprises d'IA pourraient faire face à des poursuites similaires ou devoir ajuster leurs pratiques de collecte de données, augmentant potentiellement les coûts et ralentissant l'innovation à court terme en raison de règles d'approvisionnement en données plus strictes.
Reddit a des accords de licence de données existants avec des entreprises comme Google et OpenAI, et ce procès renforce leur approche de monétisation et de protection du contenu des utilisateurs par des arrangements formels.