Type de Document
  • Communication non publiée (16)
  • Article (5)
  • Site Web (3)
  • Working paper (2)
  • Voir plus
Centre de Recherche
  • Médialab (26)
  • Centre de recherches politiques de Sciences Po (4)
  • Centre de recherches internationales (1)
  • Centre d'études européennes et de politique comparée (1)
  • Voir plus
Discipline
  • Sciences de l'information et de la communication (21)
  • Web (20)
  • Sociologie (20)
  • Méthodes et statistiques (19)
  • Voir plus
Langue
  • Français (19)
  • Anglais (11)
in OMICS. A Journal of Integrative Biology Publié en 2020
NECULA Andra
LEIBING Annette
BLASIMME Alexandro
48
vues

0
téléchargements
The expression “public opinion” has long been part of common parlance. However, its value as a scientific measure has been the topic of abundant academic debates over the past several decades. Such debates have produced more variety and contestations rather than consensus on the very definition of public opinion, let alone on how to measure it. This study reports on the usefulness of web-based big data digital network analytics in deciphering the distributed meanings and sense making related to controversial biotechnology applications. Using stem cell therapies as a case study, we argue that such digital network analysis can complement the traditional opinion polls while avoiding the sampling bias that is typical of opinion polls. Although the polls cannot account for the opinion dynamics, combining them with web-based big data analysis can shed light on three dimensions of public opinion essential for sense making: counts or volume of opinion data, content, and movement of opinions. This approach is particularly promising in the case of ongoing scientific controversies that increasingly overflow into the public sphere morphing into public political debates. In particular, our study focuses as a case study on public controversies over the clinical provision of stem cell therapies. Using web entities specifically addressing stem cell issues, including their dynamic aggregation, the internal architecture of the web corpus we report in this study brings the third dimension of public opinion (movement) into sharper focus. Notably, the corpus of stem cell networks through web connectivity presents hot spots of distributed meaning. Large-scale surveys conducted on these issues, such as the Eurobarometer of Biotechnology, reveal that European citizens only accept research on stem cells if they are highly regulated, while the stem cell digital network analysis presented in this study suggests that distributed meaning is promise centeredness. Although major scientific journals and companies tend to structure public opinion networks, our finding of promise centeredness as a key ingredient of distributed meaning and sense making is consistent with therapeutic tourism that remains as an important facet of the stem cell community despite the lack of material standards. This new approach to digital network analysis has crosscutting corollaries for rethinking the notion of public opinion, be it in electoral preferences or as we discuss in this study, for new ways to measure, monitor, and democratically govern emerging technologies.

Unfolding the Multi-layered Structure of the French Mediascape

Publié en 2018-10 Nom de la conférence WS.2 2018 International conference on Web Studies, Paris, France — October 03 - 05, 2018
39
vues

0
téléchargements
The emergence and success of web platforms raised a gimmick into social studies: “Hyperlink is dead!“. Capturing web users into mobile applications and private web platforms to propose them a specific user experience (and a business model) created indeed new silos in the open World Wide Web space. The simplified availability of user behavioural data through these platforms APIs reinforced this idea in academic communities by providing scholars with a rich and easy way to collect user centric data for their research. After discussing the methodological and ethical aspects of the web divide between platforms and classical websites, we will argue in this communication that hyperlinks, although more complex to collect, manipulate and apprehend, remain an invaluable matter to use the web as a research field. We will illustrate it using Hyphe, a dedicated web corpus creation tool we developed to mine hypertexts.

When debates about Islam acquire importance in the public sphere, does the far right adhere to traditional racist arguments, risking marginalization, or does it conform to mainstream values to attain legitimacy in the political system? Focusing on the aftermath of the 2015 terrorist attacks in France, I explore the framing of Islam, discussing how the far right’s nativist arguments were reformulated to engage with available discursive opportunities and dominant conceptions of the national identity. By looking at actors in the protest and the electoral arenas, I examine the interplay between the choice of anti-Islam frames and baseline national values. I offer a novel mixed-method approach to study political discourses, combining social network analysis of the links between seventy-seven far-right websites with a qualitative frame analysis of online material. It also includes measures of online visibility of these websites to assess their audiences. The results confirm that anti-Islam frames are couched along a spectrum of discursive opportunity, where actors can either opt to justify opposition to Islam based on interpretations of core national values (culture and religion) or mobilize on strictly oppositional values (biological racism). The framing strategy providing most online visibility is based on neo-racist arguments. While this strategy allows distortion of baseline national values of secularity and republicanism, without breaching the social contract, it is also a danger for organizations that made “opposition to the system” their trademark. While the results owe much to the French context, the conclusions draw broader implications as to the far right going mainstream.

Hyphe, a web crawler for social scientists developed by the SciencesPo médialab, introduced the novel concept of web entities to provide a flexible and evolutive way of grouping web pages in situations where the notion of website is not relevant enough (either too large, for instance with Twitter accounts, newspaper articles or Wikipedia pages, or too constrained to group together multiple domains or TLDs...). This comes with technical challenges since indexing a graph of linked web entities as a dynamic layer based on a large number of URLs is not as straightforward as it may seem. We aim at providing the graph community with some feedback about the design of an on-file index - part Graph, part Trie - named the "Traph", to solve this peculiar use-case. Additionally we propose to retrace the path we followed, from an old Lucene index, to our experiments with Neo4j, and lastly to our conclusion that we needed to develop our own data structure in order to be able to scale up.

Publié sous la forme d’un logiciel libre, Hyphe a été conçu pour offrir aux chercheurs et étudiants un outil de création et nettoyage de corpus web reposant sur un crawler orienté pour la recherche. Les utilisateurs sont accompagnés par une méthodologie pour construire leur corpus web de manière à la fois granulaire et flexible avec des principes de curation simples. La séance proposera tout d'abord une présentation générale de la méthode et de l'outil, ainsi qu'un cas d'usage de Hyphe. Le cas présenté sera la création d'un "datascape" dans le cadre d'un projet réalisé au médialab entre 2015 et 2017 ayant consisté en la réalisation d'une interface d'exploration d'un corpus Hyphe pour l'analyse quali-quanti de controverses autour des enjeux de data privacy. Dans un second temps il sera proposé aux participants d'essayer Hyphe concrètement lors d'un atelier pratique. Les participants sont invités à venir équipés d'un ordinateur portable pour pouvoir prendre en main le logiciel durant cet atelier.

Cet article porte sur l’activisme environnemental et les usages du numérique. Le cas de la controverse autour du projet EuropaCity en périphérie parisienne s’appuie une analyse de l’usage du réseau social Twitter. Le corpus de données collecté et analysé correspond au hashtag de la controverse, #EuropaCity, ainsi qu’aux profils des acteurs principaux du débat sur la plateforme. Les résultats permettent d’établir une cartographie d’un débat qui peine à s’instaurer en ligne. Plus spécifiquement il s’agit d’observer l’évolution dans le temps du débat, par la distribution temporelle des tweets et son articulation à l’actualité des mobilisations, de l’évolution du projet et des moments du débat public. Une attention est aussi portée aux principaux acteurs impliqués dans la controverse et à leurs registres d’action au travers de l’importance prise par la controverse EuropaCity dans leurs communications et actions, leurs proximités et éventuelles mise en réseau, leurs interactions, leurs modes d’expression et bien sûr le contenu des tweets.

3
vues

0
téléchargements
Le web c’est grand, surtout vers le fond. Et ce n’est pas très organisé, même si ce n’est pas non plus le chaos. Quelle est la structure du web, et comment s’y orienter ? Question plus difficile encore, comment trouver et identifier l’information pertinente sans amasser de téraoctets inutiles ? Le web nous oppose des défis à la fois méthodologiques et technologiques. Le médialab de Sciences Po a développé HYPHE, un robot amasseur de données web aussi appelé «crawler», ajusté aux besoins de la recherche en sciences sociales. Il s’adresse aux sociologues qui veulent investiguer le web comme terrain d’enquête qualitative et en tirer des indicateurs quantitatifs. S’appuyant sur le modèle du web «en couches», il guide son utilisateur pour construire, itération après itération, un corpus de ressources et/ou d’acteurs. Le travail manuel de sélection et de qualification de l’information est récompensé par un réseau de ressources que l’on peut exploiter de différentes manières: en analysant sa topologie avec GEPHI, en exportant ses textes vers un logiciel de traitement du langage, ou encore en construisant un moteur de recherche dédié. Le médialab vous propose une présentation de ce logiciel libre et open source, et une initiation à ses principaux concepts. Des exemples tirés des travaux des chercheurs l’ayant utilisé illustreront ses possibilités. Une démo de HYPHE est également disponible en ligne - hyphe.medialab.sciences-po.fr

Nous proposons dans cette communication de présenter les principes et étapes de développement de production du datascape (corpus et interface d'exploration visuelle), ainsi que les contraintes et limites rencontrées dans l'application de cette méthode d'exploration de données pour la recherche. L'outil développé permet d'explorer le corpus de données à partir de trois entrées distinctes (acteurs web, texte des pages web, thèmes identifiés par les topics) et de basculer entre ces entrées. Il est fondé sur deux principes de navigation. Un premier principe que l'on pourrait qualifier de vertical, qui vise à passer du « tout » vers « les parties », c'est à dire du réseau complet aux web entités, puis aux pages web, mais également des topics, aux termes qui les constituent. De plus, il permet de dépasser cette fonction de zoom dans les données (Boullier et al, 2016) en offrant un second principe de navigation horizontale. Le datascape est conçue pour circuler, à chaque étape de la navigation, entre les différents attributs des données du corpus, des acteurs aux documents, et des documents aux topics.

We defined this website as a datascape (Latour and al., 2012). A datascape is a tool that allows exploring a dataset from different levels of aggregation and different points of view related to the attributes of each element of the corpus. The philosophy of this datascape is to always be able to qualify actors (web entities) and the terms of potential controversies (topics and text content of pages). To do this we have designed a tool that allows following the links between web entities, their pages and associated topics. We have also included two visualization tools, a graph to locate web entities, and a matrix to explore links between topics.

10
vues

0
téléchargements

Publié en 2017-03-16 Nom de la conférence Science XXL : Ce que l’abondance et la diversité des données font aux sciences sociales
30
vues

30
téléchargements
Le développement des technologies numériques engendre une longue et profonde mutation de notre rapport à la connaissance. Quelle que soit l’étiquette utilisée pour désigner ce phénomène, de nombreuses personnes s’interrogent sur les évolutions de nos pratiques académiques (Lazer et al 2009, Ollion & Bollaert 2016). Explorer les parties pour construire les touts Latour et al avancent en 2012 que de nouvelles façons de représenter et surtout de naviguer dans les données permettraient de revenir sur le rapport entre tout et partie, débat aussi vieux que la sociologie elle-même (Latour 2012). D’après ces auteurs, chaque tout n’est qu’une façon particulière de voir les parties, un trait commun qui rassemble. Un trait parmi d’autres. Le tout est une prise tellement utile, tellement signifiante qu’on en oublie qu’il cache une réduction d’une foule de particularités. Or ce tout peut aujourd’hui être décomposé ou plutôt recomposé dynamiquement dans de nouveaux moyens d’exploration des données appelés Datascapes - autrement dit paysages de données. Reprenant ces intentions, nous avons depuis 2012 conçu des outils d’analyse exploratoire de données (Tukey 1977) qui permettent de multiplier les perspectives sur un même objet.

L’objectif de cette note est de proposer un nouvel outil méthodologique en complément de celui des sondages afin de renforcer la fiabilité de la connaissance de l’opinion publique. Il s’agit d’un logiciel de cartographie web appelé Hyphe à partir duquel il est possible de collecter des opinions exprimées sur internet autour d’un objet d’étude défini par le chercheur ou par le sondeur. Le corpus obtenu peut être visualisé sous la forme d’un réseau web faisant apparaître les liens entre différentes entités numériques (qui peuvent être des pages, des sous-domaines ou des combinaisons de sites etc.) du réseau ainsi reconstitué.

Publié en 2016-05 Nom de la conférence International AAAI Conference on Web and Social Media
38
vues

38
téléchargements
The web is a field of investigation for social sciences, and platform-based studies have long proven their relevance. However the generic web is rarely studied in itself though it contains crucial aspects of the embodiment of social actors: personal blogs, institutional websites, hobby-specific media… We realized that some sociologists see existing web crawlers as “black boxes” unsuitable for research though they are willing to study the broad web. In this paper we present Hyphe, a crawler developed with and for social scientists, with an innovative “curation-oriented” approach. We expose the problems of using web-mining techniques in social science research and how to overcome those by specific features such as step-by-step corpus building and a memory structure allowing researchers to redefine dynamically the granularity of their “web entities”.

Publié en 2015-10
PEDROJA Cynthia
ANSART Thomas
MITRANO Patrice
MUNK Anders Kristian
6
vues

0
téléchargements
Les images du médialab et de l'atelier de cartographie se rencontrent et dialoguent dans les vitrines de la bibliothèque. Retrouvez les textes et téléchargez les images qui vous ont marqué.

in NETCOM Publié en 2015-07
DOUAY Nicolas
REYS Nicolas
ROBIN Sabrina, Géographie-Cités
8
vues

0
téléchargements
Cet article propose de visualiser des données numériques produites par l’usage du réseau social Twitter par les maires de la région Ile-de-France. En effet Twitter est maintenant un outil de communication en pleine expansion et les personnalités publiques l’utilisent abondamment comme un moyen de rejoindre les internautes intéressés par leurs engagements et responsabilités. L’analyse et la visualisation de ces « big data » visent donc à réaliser une étude de l’usage d’un réseau social par des élus locaux. Il s’agit, d’abord, de dresser le profil type des maires présents sur le réseau social en fonction du genre, de l’âge, de l’appartenance partisane, du niveau de responsabilité et du type d’espace. Puis de caractériser les usages quant à l’audience et au rayonnement de l’activité par l’analyse du nombre de tweets et des followers en reprenant les mêmes critères. Et enfin, il s’agit d’observer le contenu des messages échangés et de les analyser comme des illustrations du débat public local.

Notion centrale de la recherche en SHS, le corpus voit ses contours redéfinis alors que les éléments qui le constituent sont aujourd’hui le plus souvent des contenus ou données issus du web. Quelles sont les possibilités offertes par le contexte numérique, pour constituer et traiter des corpus, les méthodes de recueil de données et d’observation en sont-elles modifiées ? La taille et la dimension de représentativité d’un corpus sont-elle revisitées quand les données accessibles s’inscrivent dans des flux et se mesurent en Giga ou Tera octets, quelles unités retenir quand les données sont hétérogènes et instables ? Quels sont les instruments à disposition du chercheur pour constituer, traiter et analyser ces corpus ?

In the last few years, a spirit has been haunting our academic and popular culture — the spirit of networks. Throughout social as well as natural sciences, more and more phenomena have come to be conceived as networks. Telecommunication networks, neural networks, social networks, epigenetic networks, ecological and economic networks , the very fabric of our existence seems to be made of lines and dots. More recently, the interest for graphs overflowed from science to popular culture and images of networks started to appear everywhere. They decorate buildings and objects; they are printed on t-shirts and furniture; they colonize the desktop of our computers and the walls of our airports. Networks have become the emblem of modernity, a way to show and tell our world’s complexity. Our growing fascination for networks is not unjustified. Networks are powerful conceptual tools, encapsulating in a single object multiple affordances for computation (networks as graphs), visualization (networks as maps) and manipulation of data (networks as interfaces).

De plus en plus structurées, formatées et interopérables, les données de la recherche contribuent elles-mêmes au développement du web des données. Mais qu’en est-il de leur préservation sur le long terme? Comment conserver les archives scientifiques quand elles intègrent des corpus multimédias ou issus du Web? Comment garantir les conditions d’un retour à la source dans le cadre de corpus issus du web constitués spécifiquement pour des projets de recherche? Quel sont les outils, les plateformes, les projets qui concourent à partager et diffuser les fonds d’archives scientifiques et, inversement, à archiver les contenus en ligne quand ils sont constitués en objets d’étude? Dans quelle mesure les techniques et les politiques d’archivage du web peuvent-elles compléter ou interférer avec celles de l’archivage scientifique? Y a-t-il une concurrence entre les acteurs, ou les plateformes sont-elles au contraire appelées à s’articuler en exploitant les nouvelles possibilités de partage et les nouvelles manières de construire des corpus?

Gephi is a network visualization software used in various disciplines (social network analysis, biology, genomics...). One of its key features is the ability to display the spatialization process, aiming at transforming the network into a map, and ForceAtlas2 is its default layout algorithm. The latter is developed by the Gephi team as an all-around solution to Gephi users' typical networks (scale-free, 10 to 10,000 nodes). We present here for the first time its functioning and settings. ForceAtlas2 is a force-directed layout close to other algorithms used for network spatialization. We do not claim a theoretical advance but an attempt to integrate different techniques such as the Barnes Hut simulation, degree-dependent repulsive force, and local and global adaptive temperatures. It is designed for the Gephi user experience (it is a continuous algorithm), and we explain which constraints it implies. The algorithm benefits from much feedback and is developed in order to provide many possibilities through its settings. We lay out its complete functioning for the users who need a precise understanding of its behaviour, from the formulas to graphic illustration of the result. We propose a benchmark for our compromise between performance and quality. We also explain why we integrated its various features and discuss our design choices.