Qu'est-ce que l'analyse syntaxique des données ?

Mai-00-20215 minutes de lecture

Data Parsing is a term that you often come across when you work with large quantities of data, especially for those who scrape data from the web as well as software engineers. However, data parsing is a topic that needs to be discussed in greater depth. For instance, what exactly is data parsing, and how

L'analyse de données est un terme que l'on rencontre souvent lorsqu'on travaille avec de grandes quantités de données, en particulier pour ceux qui récupèrent des données sur le web et pour les ingénieurs en logiciel. Cependant, l'analyse syntaxique des données est un sujet qui mérite d'être approfondi. Par exemple, qu'est-ce que l'analyse de données et comment la mettre en œuvre dans le monde réel ?

Cet article répondra à toutes les questions ci-dessus et fournira une vue d'ensemble des terminologies significatives associées à l'analyse de données.

Qu'est-ce que l'analyse syntaxique ?

Lorsque vous extrayez de grandes quantités de données à partir du web scraping, elles sont au format HTML. Malheureusement, ce format n'est pas lisible par un non-programmeur. Il faut donc retravailler les données pour les rendre lisibles par l'homme, ce qui facilite leur analyse par les spécialistes des données. C'est l'analyseur syntaxique qui effectue la plus grande partie de ce travail d'analyse.

Que fait un analyseur de données ?

Un analyseur syntaxique convertit les données d'un format en données d'une autre forme. Par exemple, l'analyseur syntaxique convertit les données HTML que vous avez obtenues par scraping en JSON, CSV et même en tableau afin qu'elles soient dans un format que vous pouvez lire et analyser. Il convient également de mentionner que l'analyseur n'est pas lié à un format de données particulier.

L'analyseur syntaxique n'analyse pas chaque chaîne HTML, car un bon analyseur syntaxique distingue les données requises dans les balises HTML du reste.

Différentes technologies qui utilisent l'analyseur syntaxique

Comme indiqué dans la section précédente, l'analyseur syntaxique n'étant pas lié à une technologie spécifique, il est exceptionnellement flexible par nature. C'est pourquoi une grande variété de technologies l'utilise :

Langages de script - il s'agit des langages qui n'ont pas besoin d'un compilateur pour être exécutés, car ils se basent sur une série de commandes dans un fichier. Les exemples typiques sont PHP, Python et JavaScript.

Java et autres langages de programmation - Les langages de programmation de haut niveau tels que Java utilisent un compilateur pour convertir le code source en langage d'assemblage. L'analyseur syntaxique est un composant important de ces compilateurs qui crée une représentation interne du code source.

HTML et XML - dans le cas de HTML, l'analyseur extrait le texte dans les balises HTML telles que le titre, les en-têtes, les paragraphes, etc. Alors qu'un analyseur XML est une bibliothèque qui facilite la lecture et la manipulation des documents XML.

Langages SQL et de base de données - L'analyseur SQL, par exemple, analyse une requête SQL et génère les champs définis dans la requête SQL.

Langages de modélisation - l'analyseur des langages de modélisation permet aux développeurs, aux analystes et aux parties prenantes de comprendre la structure du système modélisé.

Les langages de données interactifs sont utilisés pour le traitement interactif de grandes quantités de données, notamment dans les domaines de la science spatiale et de la physique solaire.

Pourquoi avez-vous besoin de l'analyse des données ?

La principale raison pour laquelle l'analyse syntaxique est nécessaire est que diverses entités ont besoin de données dans des formats différents. L'analyse syntaxique permet donc de transformer les données de manière à ce qu'un être humain ou, dans certains cas, un logiciel puisse les comprendre. Les programmes informatiques constituent un exemple frappant de ce dernier cas. Tout d'abord, les humains les écrivent dans un format qu'ils peuvent comprendre avec un langage de haut niveau analogue à une langue naturelle comme l'anglais que nous utilisons quotidiennement. Ensuite, les ordinateurs les traduisent sous une forme allant jusqu'à un code de niveau machine que les ordinateurs comprennent.

L'analyse est également nécessaire dans les situations où la communication est requise entre deux logiciels différents - par exemple, la sérialisation et la désérialisation d'une classe.

La terminologie de l'analyse syntaxique et la structure de l'analyseur syntaxique

Jusqu'à présent, vous connaissez les concepts fondamentaux de l'analyse syntaxique des données. Il est maintenant temps d'explorer les concepts importants associés à l'analyse de données et au fonctionnement de l'analyseur.

Terminologie

Expressions régulières

Les expressions régulières sont une série de caractères qui définissent un modèle particulier. Elles sont le plus souvent utilisées par les langages de haut niveau et les langages de script pour valider une adresse électronique ou une date de naissance. Bien qu'elles soient considérées comme inadaptées à l'analyse de données, elles peuvent toujours être utilisées pour analyser des entrées simples. Cette idée fausse vient du fait que certains programmeurs utilisent les expressions régulières pour toutes les tâches d'analyse, même lorsqu'elles ne sont pas censées être utilisées. Dans de telles circonstances, le résultat est une série d'expressions régulières bricolées.

Vous pouvez utiliser des expressions régulières pour analyser certains langages de programmation simples, également connus sous le nom de langages réguliers. Cependant, cela n'inclut pas le HTML, que l'on peut considérer comme un langage simple. En effet, à l'intérieur des balises HTML, vous rencontrerez un nombre quelconque de balises arbitraires. De plus, selon sa grammaire, il comporte des éléments récursifs et imbriqués que l'on ne peut pas classer dans les langages réguliers. Par conséquent, vous ne pouvez pas les analyser, quelle que soit votre intelligence.

Grammaires

La grammaire est un ensemble de règles qui décrivent une langue de manière syntaxique. Elle ne s'applique donc qu'à la syntaxe et non à la sémantique d'une langue. En d'autres termes, la grammaire s'applique à la structure d'une langue et non à son sens. Prenons l'exemple suivant :

HI : "HI"

NOM : [a-zA-z] +

Salutation : BONJOUR NOM

Deux des sorties possibles pour le morceau de code ci-dessus peuvent être "HI SARA" ou "HI Coding". En ce qui concerne la structure du langage, elles sont toutes deux correctes. Cependant, dans la deuxième sortie, comme "Coding" n'est pas un nom de personne, elle est incorrecte d'un point de vue sémantique.

Anatomie de la grammaire

Nous pouvons examiner l'anatomie de la grammaire à l'aide des formes couramment utilisées, telles que la forme de Backus-Naur (BNF). Cette forme a ses variantes, dont la forme Backus-Naur étendue, qui indique la répétition. Une autre variante de la BNF est la forme Backus-Naur augmentée. Elle est utilisée pour décrire les protocoles de communication bidirectionnels.

Lorsque vous utilisez une règle typique dans le formulaire Backus-Naur, cela ressemble à ceci :

<symbol> : : _expression_

The <symbol> is nonterminal, which means you can replace it with elements on the right, _expression_. The _expression_ could contain terminal symbols as well as nonterminal symbols.

Vous vous demandez peut-être ce que sont les symboles terminaux ? Eh bien, ce sont ceux qui n'apparaissent comme symbole dans aucun composant de la grammaire. Un exemple typique de symbole terminal est une chaîne de caractères telle que "Programme".

Comme la règle ci-dessus définit techniquement la transformation entre le non terminal et le groupe de non terminaux et de terminaux à droite, elle peut être appelée règle de production.

Types de grammaires

Il existe deux types de grammaires : les grammaires régulières et les grammaires sans contexte. Les grammaires régulières sont utilisées pour définir un langage commun. Il existe également un type de grammaire plus récent, connu sous le nom de Parsing Expression Grammar (PEG), qui représente les langages sans contexte et qui est également puissant en tant que grammaire sans contexte. Quoi qu'il en soit, la différence entre les deux types dépend de la notation et de la manière dont les règles sont mises en œuvre.

Une manière plus simple de différencier deux grammaires est l'_expression_, ou le côté droit de la règle pourrait être sous la forme de :

Une chaîne vide
Un seul symbole de borne
Un symbole terminal unique est suivi d'un symbole non terminal.

En réalité, c'est plus facile à dire qu'à faire, car un outil particulier peut autoriser plus de symboles terminaux dans une définition. Il pourrait alors transformer l'expression en une série correcte d'expressions appartenant à l'un ou l'autre des cas susmentionnés.

Ainsi, même une expression vulgaire que vous écrivez sera transformée en une forme correcte, bien qu'elle ne soit pas compatible avec une langue naturelle.

Composants d'un analyseur syntaxique

L'analyseur syntaxique étant chargé d'analyser une chaîne de symboles dans un langage de programmation conforme aux règles de grammaire que nous venons d'évoquer, nous pouvons décomposer la fonctionnalité de l'analyseur syntaxique en un processus en deux étapes. En règle générale, l'analyseur est chargé de lire, d'analyser et de transformer les données non structurées en un format structuré.

Les deux principaux composants d'un analyseur syntaxique sont l'analyse lexicale et l'analyse syntaxique. En outre, certains analyseurs syntaxiques mettent également en œuvre un composant d'analyse sémantique qui prend les données structurées et les filtre comme suit : positives ou négatives, complètes ou incomplètes. Bien que vous puissiez supposer que ce processus améliore encore le processus d'analyse des données, ce n'est pas toujours le cas.

L'analyse sémantique n'est pas intégrée dans la plupart des analyseurs syntaxiques en raison des pratiques plus favorisées de l'analyse sémantique humaine. L'analyse sémantique doit donc être une étape supplémentaire et, si vous envisagez de la réaliser, elle doit compléter vos objectifs commerciaux.

Examinons ensuite les deux principaux processus de l'analyseur syntaxique.

Analyse lexicale

Elle est réalisée par le Lexar, également appelé scanneur ou tokeniseur, dont le rôle est de transformer une séquence de données brutes non structurées ou de caractères en tokens. Souvent, la chaîne de caractères qui entre dans l'analyseur est au format HTML. L'analyseur syntaxique crée ensuite des jetons en utilisant des unités lexicales, notamment des mots-clés, des identificateurs et des délimiteurs. Simultanément, l'analyseur syntaxique ignore les données lexicalement non pertinentes que nous avons abordées dans la section d'introduction. Par exemple, elles incluent les espaces blancs et les commentaires à l'intérieur d'un document HTML.

Une fois que l'analyseur syntaxique a éliminé les jetons non pertinents au cours du processus lexical, le reste du processus d'analyse syntaxique porte sur l'analyse syntaxique.

Analyse syntaxique

Cette phase de l'analyse syntaxique des données consiste à construire un arbre d'analyse. Cela signifie qu'après avoir créé les tokens, l'analyseur syntaxique les organise en un arbre. Au cours de ce processus, les jetons non pertinents sont également capturés dans la structure d'imbrication de l'arbre lui-même. Les éléments non pertinents comprennent les parenthèses, les points-virgules et les crochets.

Pour mieux comprendre, nous allons l'illustrer par une simple équation mathématique : (a*2)+4

le lexer de l'analyseur syntaxique les décompose ensuite en jetons comme suit :

( => Parenthèse

a => Valeur

* => Multiplier

2 => Valeur

)=> Parenthèse

+ => Plus

4 => Valeur

Ensuite, l'arbre d'analyse est construit comme suit :

Lorsque l'analyseur syntaxique extrait des données des éléments HTML, il suit le même principe.

Analyseur interne ou externe ?

Vous avez maintenant compris les aspects fondamentaux d'un analyseur syntaxique. Il est maintenant temps d'aborder l'aspect passionnant de la question de savoir s'il faut construire son propre analyseur ou en confier la réalisation à un tiers. Tout d'abord, examinons les avantages et les inconvénients de chaque méthode.

Avantages d'un analyseur interne

La création d'un analyseur syntaxique interne présente de nombreux avantages. L'un des principaux avantages est que vous avez plus de contrôle sur les spécifications. En outre, comme les analyseurs ne sont pas limités à un seul format de données, vous avez le luxe de pouvoir les adapter à différents formats de données.

Parmi les autres avantages significatifs, citons les économies de coûts et le contrôle de la mise à jour et de la maintenance de l'analyseur intégré.

Inconvénients de l'analyseur interne

L'analyseur interne n'est pas sans inconvénients. L'un des principaux inconvénients est qu'il vous prendrait beaucoup de votre temps précieux alors que vous avez un contrôle substantiel sur sa maintenance, ses mises à jour et ses tests. L'autre inconvénient est que vous ne pouvez pas acheter et construire un serveur puissant pour analyser toutes vos données plus rapidement que vous ne le souhaitez. Enfin, vous devrez former l'ensemble de votre personnel interne à la construction de l'analyseur et à la formation à son utilisation.

Avantages d'un analyseur syntaxique externalisé

Lorsque vous externalisez un analyseur syntaxique, vous économisez l'argent que vous dépensez en ressources humaines, car l'entreprise acheteuse vous fournira toutes les tâches, y compris les serveurs et l'analyseur syntaxique. En outre, vous serez moins susceptible d'être confronté à des erreurs importantes, car l'entreprise qui l'a conçu est plus à même de tester tous les scénarios avant de le mettre sur le marché.

En cas d'erreur, l'entreprise auprès de laquelle vous avez acheté l'analyseur syntaxique vous apportera une assistance technique. Vous gagnerez également beaucoup de temps, car la prise de décision concernant l'élaboration du meilleur analyseur syntaxique sera confiée à une entreprise extérieure.

Les inconvénients d'un analyseur syntaxique externalisé

Bien que l'externalisation présente de nombreux avantages, elle comporte également des inconvénients. Les principaux inconvénients concernent la personnalisation et le coût. Étant donné que la société d'analyse syntaxique a créé l'ensemble des fonctionnalités, le coût est plus élevé. En outre, le contrôle total de la fonctionnalité de l'analyseur est limité.

Conclusion

Dans ce long article, vous avez découvert le fonctionnement de l'analyseur, le processus d'analyse des données en général et ses principes fondamentaux. L'analyse syntaxique des données est un processus long et compliqué. Lorsque vous aurez l'occasion d'en faire l'expérience pratique, vous disposerez d'une mine de connaissances sur la manière de l'exécuter efficacement.

Nous espérons que vous utiliserez ces connaissances de manière efficace.

Par : ProxyScrape