Forum: >>> Magnum BBS <<<

[rech] parser ? Picture to pdf ou text ?

From ptilou@21:1/5 to All on Sat Jan 21 13:00:01 2023

Bonjour,

J’attaque un travail dedroit compare, il y a pas que les [grands] informaticiens et donc je cherche un parser, mais ausi un stockage qui m’indexerai beaucoup de document texte ?

MaxWeberEconomyAndSociety.pdf (archive.org), voila pourquoi je cherche le parser !

Pour l’indexation j’ai beaucoup de document je me demande si c’est pas possible que freeperso interoge et indexe des base comme legifrance ou hudoc ?

Si quelqu’un est interrese j’ai fait le plein de doc arm pour le mac hier a kth sur ieee …. ( c’est dispo a la bnf a Paris) j’ai demande audince pour savoir si je peux virer la carte mere apple pour mettre un raspberry, qui marche avec pad
clavier, et ecran, pour l’instant seul un hexagonal, qui n’est peut etre pas local m’a repondu …

Bonne annee et sante !

—
Ptilou

--- SoupGate-Win32 v1.05
* Origin: fsxNet Usenet Gateway (21:1/5)

From Basile Starynkevitch@21:1/5 to ptilou on Sat Jan 21 16:50:01 2023

This is a multi-part message in MIME format.
On 21/01/2023 12:49, ptilou wrote:

Bonjour,

J’attaque un travail dedroit compare, il y a pas que les [grands] informaticiens et donc je cherche un parser, mais ausi un stockage qui m’indexerai beaucoup de document texte ?

S'il s'agit d'analyser des images (et pas des fichiers textuels), je
suggère d'utiliser la bibliothèque OpenCV <https://opencv.org/>.

Ou bien de contacter l'un des experts français en ce domaine, dont le professeur Mohamed Daoudi <https://pro.univ-lille.fr/mohamed-daoudi/> à
Lille.

Librement.

--
Basile Starynkevitch<[email protected]>
(only mine opinions / les opinions sont miennes uniquement)
92340 Bourg-la-Reine, France
web page: starynkevitch.net/Basile/

<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
</head>
<body>
 

<div class="moz-cite-prefix">On 21/01/2023 12:49, ptilou wrote: 
</div>
<blockquote type="cite"
cite="mid:[email protected]">
<pre class="moz-quote-pre" wrap="">Bonjour,

J’attaque un travail dedroit compare, il y a pas que les [grands] informaticiens et donc je cherche un parser, mais ausi un stockage qui m’indexerai beaucoup de document texte ?</pre>
</blockquote>
 

S'il s'agit d'analyser des images (et pas des fichiers textuels),
je suggère d'utiliser la bibliothèque <a moz-do-not-send="true"
href="https://opencv.org/">OpenCV</a>.
Ou bien de contacter l'un des experts français en ce domaine,
dont le professeur <a moz-do-not-send="true"
href="https://pro.univ-lille.fr/mohamed-daoudi/">Mohamed Daoudi</a>
à Lille.
 

Librement. 

<pre class="moz-signature" cols="72">--
Basile Starynkevitch <a class="moz-txt-link-rfc2396E" href="mailto:[email protected]"><[email protected]></a>
(only mine opinions / les opinions sont miennes uniquement)
92340 Bourg-la-Reine, France
web page: starynkevitch.net/Basile/

</pre>

 

<blockquote type="cite"
cite="mid:[email protected]">
<pre class="moz-signature" cols="72">
</pre>
</blockquote>
</body>
</html>

--- SoupGate-Win32 v1.05
* Origin: fsxNet Usenet Gateway (21:1/5)

From Basile Starynkevitch@21:1/5 to ptilou on Sat Jan 21 16:40:01 2023

This is a multi-part message in MIME format.
On 21/01/2023 12:49, ptilou wrote:

Bonjour,

J’attaque un travail dedroit compare, il y a pas que les [grands] informaticiens et donc je cherche un parser, mais ausi un stockage qui m’indexerai beaucoup de document texte ?

Je serais intéressé à comprendre de quel travail de droit comparé s'agit-il....

Pour l'analyse de texte on pourrait coder quelque chose en utilisant un générateur de parser comme GNU bison
<https://www.gnu.org/software/bison/> ou ANTLR <https://www.antlr.org/>
ou menhir <https://gallium.inria.fr/~fpottier/menhir/> (qui est
français) ou Lemon <https://www.sqlite.org/lemon.html>.

On peut aussi s'inspirer du code de certains shells en logiciel libre
(par exemple GNU bash <https://www.gnu.org/software/bash/> ou zsh <https://zsh.org/>) ou d'autres logiciels libres comme RefPerSys <http://refpersys.org/> ou CAIA
<https://github.com/bstarynk/caia-pitrat> ou Sqlite
<https://www.sqlite.org/>.

Pour le stockage, je suggère d'utiliser une base de données en logiciel libre, par exemple PostGreSQL <https://postgresql.org/> ou MariaDB <https://mariadb.org/> ou Redis <https://redis.io/> ou Sqlite <https://www.sqlite.org/>.

MaxWeberEconomyAndSociety.pdf (archive.org), voila pourquoi je cherche le parser !

Pour l’indexation j’ai beaucoup de document je me demande si c’est pas possible que freeperso interoge et indexe des base comme legifrance ou hudoc ?

Je n'ai pas compris la question. Free <https://portail.free.fr/> utilise
bien sûr des bases de données.

Et concernant vos documents, combien de documents (ou de gigaoctets ou
de petaoctets) voulez vous stocker?

La lecture du livre de Pierre Delort
<https://www.linkedin.com/in/delort/>, collection _Que Sais-je_ au PUF,
sur le /Big Data/ serait probablement utile!

Librement.

--
Basile Starynkevitch<[email protected]>
(only mine opinions / les opinions sont miennes uniquement)
92340 Bourg-la-Reine, France
web page: starynkevitch.net/Basile/

<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
</head>
<body>
 

<div class="moz-cite-prefix">On 21/01/2023 12:49, ptilou wrote: 
</div>
<blockquote type="cite"
cite="mid:[email protected]">
<pre class="moz-quote-pre" wrap="">Bonjour,

J’attaque un travail dedroit compare, il y a pas que les [grands] informaticiens et donc je cherche un parser, mais ausi un stockage qui m’indexerai beaucoup de document texte ?</pre>
</blockquote>
Je serais intéressé à comprendre de quel travail de droit comparé
s'agit-il<tt>....</tt>
 

Pour l'analyse de texte on pourrait coder quelque chose en
utilisant un générateur de parser comme <a moz-do-not-send="true"
href="https://www.gnu.org/software/bison/">GNU bison</a> ou <a
moz-do-not-send="true" href="https://www.antlr.org/">ANTLR</a>
ou <a moz-do-not-send="true"
href="https://gallium.inria.fr/~fpottier/menhir/">menhir</a>
(qui est français) ou <a moz-do-not-send="true"
href="https://www.sqlite.org/lemon.html">Lemon</a>. 

 

On peut aussi s'inspirer du code de certains shells en logiciel
libre (par exemple <a moz-do-not-send="true"
href="https://www.gnu.org/software/bash/">GNU bash</a> ou <a
moz-do-not-send="true" href="https://zsh.org/">zsh</a>) ou
d'autres logiciels libres comme <a moz-do-not-send="true"
href="http://refpersys.org/">RefPerSys</a> ou <a
moz-do-not-send="true"
href="https://github.com/bstarynk/caia-pitrat">CAIA</a> ou <a
moz-do-not-send="true" href="https://www.sqlite.org/">Sqlite</a>. 

 

Pour le stockage, je suggère d'utiliser une base de données en
logiciel libre, par exemple <a moz-do-not-send="true"
href="https://postgresql.org/">PostGreSQL</a> ou <a
moz-do-not-send="true" href="https://mariadb.org/">MariaDB</a>
ou <a moz-do-not-send="true" href="https://redis.io/">Redis</a>
ou <a href="https://www.sqlite.org/">Sqlite</a>.
<blockquote type="cite"
cite="mid:[email protected]">
<pre class="moz-quote-pre" wrap="">

MaxWeberEconomyAndSociety.pdf (archive.org), voila pourquoi je cherche le parser !

Pour l’indexation j’ai beaucoup de document je me demande si c’est pas possible que freeperso interoge et indexe des base comme legifrance ou hudoc ?</pre>
</blockquote>
Je n'ai pas compris la question. <a moz-do-not-send="true"
href="https://portail.free.fr/">Free</a> utilise bien sûr des
bases de données.
 

Et concernant vos documents, combien de documents (ou de
gigaoctets ou de petaoctets) voulez vous stocker?
 

La lecture du livre de Pierre <a moz-do-not-send="true"
href="https://www.linkedin.com/in/delort/">Delort</a>,
collection Que Sais-je au PUF, sur le Big Data
serait probablement utile!
 

Librement. 

<pre class="moz-signature" cols="72">--
Basile Starynkevitch <a class="moz-txt-link-rfc2396E" href="mailto:[email protected]"><[email protected]></a>
(only mine opinions / les opinions sont miennes uniquement)
92340 Bourg-la-Reine, France
web page: starynkevitch.net/Basile/

</pre>
</body>
</html>

--- SoupGate-Win32 v1.05
* Origin: fsxNet Usenet Gateway (21:1/5)

From ptilou@21:1/5 to All on Sat Jan 21 18:50:01 2023

Le samedi 21 janvier 2023 à 16:40:04 UTC+1, Basile Starynkevitch a écrit :

On 21/01/2023 12:49, ptilou wrote:
Bonjour,

J’attaque un travail dedroit compare, il y a pas que les [grands] informaticiens et donc je cherche un parser, mais ausi un stockage qui m’indexerai beaucoup de document texte ?
Je serais intéressé à comprendre de quel travail de droit comparé s'agit-il....

Les droits de l’homme norme fondamentales ayant valeur constitutionnel a l’aune d’une reconnaissance de la juridiction de Strasbourg !

Pour l'analyse de texte on pourrait coder quelque chose en utilisant un générateur de parser comme GNU bison ou ANTLR ou menhir (qui est français) ou Lemon.

On peut aussi s'inspirer du code de certains shells en logiciel libre (par exemple GNU bash ou zsh) ou d'autres logiciels libres comme RefPerSys ou CAIA ou Sqlite.

Pour le stockage, je suggère d'utiliser une base de données en logiciel libre, par exemple PostGreSQL ou MariaDB ou Redis ou Sqlite.
MaxWeberEconomyAndSociety.pdf (archive.org), voila pourquoi je cherche le parser !

Pour l’indexation j’ai beaucoup de document je me demande si c’est pas possible que freeperso interoge et indexe des base comme legifrance ou hudoc ?
Je n'ai pas compris la question. Free utilise bien sûr des bases de données.

Et concernant vos documents, combien de documents (ou de gigaoctets ou de petaoctets) voulez vous stocker?

La lecture du livre de Pierre Delort, collection Que Sais-je au PUF, sur le Big Data serait probablement utile!

Librement.
--
Basile Starynkevitch <[email protected]>
(only mine opinions / les opinions sont miennes uniquement)
92340 Bourg-la-Reine, France
web page: starynkevitch.net/Basile/

--- SoupGate-Win32 v1.05
* Origin: fsxNet Usenet Gateway (21:1/5)

From ptilou@21:1/5 to All on Sat Jan 21 21:00:02 2023

Le samedi 21 janvier 2023 à 16:40:04 UTC+1, Basile Starynkevitch a écrit :

On 21/01/2023 12:49, ptilou wrote:
Bonjour,

J’attaque un travail dedroit compare, il y a pas que les [grands] informaticiens et donc je cherche un parser, mais ausi un stockage qui m’indexerai beaucoup de document texte ?
Je serais intéressé à comprendre de quel travail de droit comparé s'agit-il....

Pour l'analyse de texte on pourrait coder quelque chose en utilisant un générateur de parser comme GNU bison ou ANTLR ou menhir (qui est français) ou Lemon.

On peut aussi s'inspirer du code de certains shells en logiciel libre (par exemple GNU bash ou zsh) ou d'autres logiciels libres comme RefPerSys ou CAIA ou Sqlite.

Pour le stockage, je suggère d'utiliser une base de données en logiciel libre, par exemple PostGreSQL ou MariaDB ou Redis ou Sqlite.
MaxWeberEconomyAndSociety.pdf (archive.org), voila pourquoi je cherche le parser !

Pour l’indexation j’ai beaucoup de document je me demande si c’est pas possible que freeperso interoge et indexe des base comme legifrance ou hudoc ?
Je n'ai pas compris la question. Free utilise bien sûr des bases de données.

Et concernant vos documents, combien de documents (ou de gigaoctets ou de petaoctets) voulez vous stocker?

La lecture du livre de Pierre Delort, collection Que Sais-je au PUF, sur le Big Data serait probablement utile!

C’est pas du bigdata …
Je veux interoger au coup par coup, sunon ,l’ordre ordinaire juridiction ca fait mois de 5 goi pour 40 000 documents, et,doinc avant y avait un rendu avec une fonctioin en batsh qui interroge un grep, y avait une prefecture sur bsd qui avait sortie des
variante enncas de faute de grammaire et conjugaison et orthographe, et le programme fesait moins de 1 Mo la c’est d’interroger et d’avoir un rendu, en passant par free, qui utilise php et mysql !

Librement.
--
Basile Starynkevitch <[email protected]>
(only mine opinions / les opinions sont miennes uniquement)
92340 Bourg-la-Reine, France
web page: starynkevitch.net/Basile/

Merci

—
Ptilou

--- SoupGate-Win32 v1.05
* Origin: fsxNet Usenet Gateway (21:1/5)

Who's Online
Recent Visitors
- Guest
  Wed Jul 29 14:26:54 2026
  from Balkans via Telnet
- Rixter
  Wed Jul 29 14:18:17 2026
  from Madison, Nc via Telnet
- Rixter
  Wed Jul 29 02:00:40 2026
  from Madison, Nc via Telnet
- Centurion
  Tue Jul 28 22:54:59 2026
  from Berea, Ohio via Telnet
- Bob Worm
  Tue Jul 28 16:01:18 2026
  from Wales, Uk via Telnet
- Rixter
  Tue Jul 28 13:42:46 2026
  from Madison, Nc via Telnet
- Krenn
  Tue Jul 28 11:59:57 2026
  from Sydney, Nsw via Telnet
- Rixter
  Tue Jul 28 01:23:48 2026
  from Madison, Nc via Telnet

System Info

Sysop:	Keyop
Location:	Huddersfield, West Yorkshire, UK
Users:	741
Nodes:	16 (2 / 14)
Uptime:	68:26:25
Calls:	12,448
Calls today:	3
Files:	15,194
Messages:	6,537,585

[rech] parser ? Picture to pdf ou text ?

Who's Online

Recent Visitors

System Info