Maths et IA

**pm42** · 07/01/2025, 07h13

Bonjour,

Quand ChatGPT est sorti, il était franchement très mauvais en maths et même pas en raisonnement, tout simplement en calcul. C'était normal vu la technologie et on sait que les réseaux de neurones ne sont pas bons pour compter comme d'ailleurs l'immense majorité des humains. C'est pour cela que depuis toujours, on a inventé des aides : bouliers, chiffres arabes et algorithmes, machines à calculer mécaniques puis électroniques, etc.

Mais beaucoup de progrès ont été faits, beaucoup de benchmarks qui semblaient difficiles conçus puis surmontés.
Donc très récemment, en novembre a été annoncé un nouveau benchmark considéré comme très difficile : https://epoch.ai/frontiermath/the-benchmark

On peut voir quelques exemples ici : https://epoch.ai/frontiermath/the-benchmark et si vous voulez, vous pouvez essayer de les résoudre si les commentaires des médailles Fields sur leur difficulté ne vous retiennent pas

Bref, aucune IA n'avait une performance supérieure à 2% de réussite.

O3 vient de faire 25% et vu le timing, ce n'est pas parce qu'il avait vu les réponses avant comme suggéré par la très remarquée et souvent mal interprétée étude d'Apple ici : https://arxiv.org/pdf/2410.05229

C'était juste pour partager cette information et donner une idée des progrès.
A titre indicatif, sur un autre benchmark, ARC-AGI (https://arcprize.org/arc), on était à 5% pour les meilleures IA début 2024, 32% en septembre ce qui est déjà impressionnant.
O3 est à 88% fin 2024.

**GBo** · 07/01/2025, 09h08

Bonjour,
Par quel mécanisme une LLM entrainée sur du texte et du code peut "comprendre" des symboles mathématiques du genre:
Nom : ord.png
Affichages : 177
Taille : 7,0 Ko

Nom : ord.png
Affichages : 177
Taille : 7,0 Ko

Tu as un lien sur ce que o3 a réellement passé comme test ?

**pm42** · 07/01/2025, 09h30

Envoyé par GBo

Par quel mécanisme une LLM entrainée sur du texte et du code peut "comprendre" des symboles mathématiques du genre:

Je suppose qu'on lui file le source LaTeX ce qui serait le plus logique. Ce n'est pas vraiment un problème parce qu'en plus, les IAs récentes sont multi-modales : elles savent lire des images, reconnaitre des sons, etc.

Envoyé par GBo

Tu as un lien sur ce que o3 a réellement passé comme test ?

Il a passé le dit benchmark. Le principe est que le gros des questions ne soient pas publiques pour éviter que les IAs n'apprennent les questions/réponses par coeur.

Pour le benchmark, toutes les infos sont sur le site et sur https://arxiv.org/pdf/2411.04872
Pour l'annonce, c'est ici à 4 min 20 : https://x.com/OpenAI/status/1870186518230511844. Tu remarqueras aussi qu'ils indiquent dans le fil X leur intention de déployer l'année prochaine contrairement à ce qui a été affirmé sur ce forum dans un autre fil.

Tu as aussi le point de vue d'un mathématicien ici : https://xenaproject.wordpress.com/20...mathematician/
A titre indicatif, on pense qu'il y a plus de 200 problèmes dans FrontierMath et que la plupart représentent des heures de travail pour un expert. Et quand je dis expert, je parle d'un vrai mathématicien, quelqu'un dont c'est le métier.

P.S : et un article sur les progrès en alignement dans o1 et o3 ici https://openai.com/index/deliberative-alignment/

**GBo** · 07/01/2025, 12h14

Envoyé par pm42

Je suppose qu'on lui file le source LaTeX ce qui serait le plus logique. Ce n'est pas vraiment un problème parce qu'en plus, les IAs récentes sont multi-modales : elles savent lire des images, reconnaitre des sons, etc.

Idée intéressante mais hélas on n'en sait rien car c'est OpenAI qui fait les tests, et ils ne sont plus "Open" depuis longtemps.
Si c'est comme ARC-AGI, grâce à Chollet (en qui j'ai confiance car qui il n'est pas payé par ni par OpenAI ni par Microsoft) on sait que les problèmes d'ARC-AGI ont été traduits sous forme textuelle: l'aspect multimodal, s'il existe pour o3 (?) n'a pas été utilisé dans son cas.

Envoyé par pm42

Il a passé le dit benchmark. Le principe est que le gros des questions ne soient pas publiques pour éviter que les IAs n'apprennent les questions/réponses par coeur. [...]

Par contre rien n'interdit (à part l'éthique) OpenAI d'enregistrer les prompts de cette séance, donc l'hypothèse de l'innocence est compromise dès la prochaine fois...

Envoyé par pm42

Pour l'annonce, c'est ici à 4 min 20 : https://x.com/OpenAI/status/1870186518230511844. [...]

Merci, mais ça ne dure que quelques secondes, aucun détail à part un résultat et le fait que ça a été passé en mode "centrale nucléaire"

Nom : FrontierMath.png
Affichages : 157
Taille : 65,8 Ko

Envoyé par pm42

Tu as aussi le point de vue d'un mathématicien ici : https://xenaproject.wordpress.com/20...mathematician/
A titre indicatif, on pense qu'il y a plus de 200 problèmes dans FrontierMath et que la plupart représentent des heures de travail pour un expert. Et quand je dis expert, je parle d'un vrai mathématicien, quelqu'un dont c'est le métier. [...]

C'est un vrai mathématicien mais il ne sait pas plus que nous quels tests ont été réussis réellement, on est ici dans la plus grande opacité, le contraire d'une démarche scientifique où un résultat ne vaut que s'il est reproduit indépendamment. Ce mathématicien admet d'ailleurs voir son enthousiasme initial modéré par le fait qu'un certain Elliot Glazer d'Epoch AI, société conceptrice du test Frontier Math justement, révèle sur X qu'il y a des questions plus faciles dans ce test, de niveau "IMO/undergrad style problems".
Et cette partie constitue justement 25% du total du benchmark. tiens donc...

https://www.reddit.com/r/OpenAI/comm...css&utm_term=1

A voir en vidéo sur Futura · Aujourd'hui

**pm42** · 07/01/2025, 14h37

Envoyé par GBo

Idée intéressante mais hélas on n'en sait rien car c'est OpenAI qui fait les tests, et ils ne sont plus "Open" depuis longtemps.
Si c'est comme ARC-AGI, grâce à Chollet (en qui j'ai confiance car qui il n'est pas payé par ni par OpenAI ni par Microsoft) on sait que les problèmes d'ARC-AGI ont été traduits sous forme textuelle: l'aspect multimodal, s'il existe pour o3 (?) n'a pas été utilisé dans son cas.

Cela n'a surtout aucun intérêt.

Envoyé par GBo

Par contre rien n'interdit (à part l'éthique) OpenAI d'enregistrer les prompts de cette séance, donc l'hypothèse de l'innocence est compromise dès la prochaine fois...

Théorie du complet et accusation infondée.

Envoyé par GBo

Ce mathématicien admet d'ailleurs voir son enthousiasme initial modéré par le fait qu'un certain Elliot Glazer d'Epoch AI, société conceptrice du test Frontier Math justement, révèle sur X qu'il y a des questions plus faciles dans ce test, de niveau "IMO/undergrad style problems".
Et cette partie constitue justement 25% du total du benchmark. tiens donc...

https://www.reddit.com/r/OpenAI/comm...css&utm_term=1

Si tu lis la suite, certains font justement remarquer que si certains des tests sont si faciles, on se demande pourquoi les autres IAs ne dépassaient pas 2%.
Avec notamment :

Calling IMO problems undergrad level problems is rather absurd.
At the very best it is extremely misleading as the knowledge required is maybe undergrad level but the skill required is beyond PhD level.
Perhaps about 0.1% of undergrad math students could solve those problems and perhaps 3% of PhD students in maths, if not significantly less.

Ce qui amène comme réponse de Elliot Glazer :

I mean, they're still hard undergrad problems. IMO/Putnam/advanced exercise style, and completely original. It's not surprising no prior model had nontrivial performance, and there is no denying that o3 is a HUGE increase in performance.

Prendre uniquement une citation qui arrange et oublier le reste n'est pas vraiment convaincant.

Ceci dit, on peut comprendre que les gens d'Epoch AI l'aient mauvaise : ils annoncent le benchmark de la mort qui tue supposé résister aux IAs pendant des années avec citation de Terence Tao, l'un des plus impressionnants mathématiciens actuels à l'appui et même pas 2 mois plus tard, ils se prennent déjà une claque.

**GBo** · 07/01/2025, 15h32

Rien ne "m'arrange" PM, j'essaie juste de démêler le spectaculaire marketing du vrai.

Personne ne nie (pas moi en tout cas) que o3 a l'air meilleur en "math" que les modèles précédents d'OpenAI. Et je n'ai pas dit non plus qu'OpenAI avait triché, je dis (et je le répète vu que j'ai du mal me faire comprendre) que le fait que la partie privée du test soit dévoilée (forcément !) au cours du test N dans la société S va poser problème pour les tests suivants dans cette même société S pour ce même benchmark B, car il faut sans cesse inventer pour elle de nouveaux problèmes inédits pour être sûr d'avoir à faire à une IA qui a une certaine intelligence mathématique et non à une grosse bachoteuse hypermnésique...

La question, en tout cas sur un forum scientifique, est de savoir comment (quels types de problèmes exactement) et pourquoi o3 fait mieux que o1 et dans quels types de "maths". Car si o3 est seulement devenue une bête à concours de type AIME (concours ouvert aux lycéens à partir de 15 ans), c'est bien différent de ce qu'un vrai mathématicien de métier a à résoudre dans sa carrière.

Pour le dire différemment, pour moi les concours de pré-olympiades est aux maths ce que la danse sportive est à la danse.

**pm42** · 07/01/2025, 15h50

Envoyé par GBo

car il faut sans cesse inventer pour elle de nouveaux problèmes inédits pour être sûr d'avoir à faire à une IA qui a une certaine intelligence mathématique et non à une grosse bachoteuse hypermnésique...

Non parce que les IAs ne mémorisent pas 1 problème et sa solution. Si c'était le cas, il suffirait de le changer un peu pour régler le problème.
C'était d'ailleurs le thème de l'article d'Apple pour faire la différence entre mémorisation et réflexion.

Envoyé par GBo

La question, en tout cas sur un forum scientifique, est de savoir comment (quels types de problèmes exactement)

Les exemples sont donnés sur le site. Tu peux t'y essayer.

Envoyé par GBo

et pourquoi o3 fait mieux que o1 et dans quels types de "maths".

Les exemples sont là aussi donné sur le site.

Envoyé par GBo

Car si o3 est seulement devenue une bête à concours de type AIME (concours ouvert aux lycéens à partir de 15 ans), c'est bien différent de ce qu'un vrai mathématicien de métier a à résoudre dans sa carrière.

C'est pour ça qu'ici on ne parle pas de AIME mais de quelque chose d'un tout autre niveau. Et ce qu'un mathématicien à a résoudre dans sa carrière couvre un très vaste spectre suivant son domaine d'activité et son niveau.
Les IAs sont encore très loin de faire certaines tâches mais la vitesse à laquelle elles progressent sur d'autres qui leur avaient pourtant values beaucoup de moqueries notamment ici est impressionnante.

**GBo** · 08/01/2025, 06h46

Salut,

Envoyé par pm42

Non parce que les IAs ne mémorisent pas 1 problème et sa solution. Si c'était le cas, il suffirait de le changer un peu pour régler le problème.

Je reformule de façon plus détaillée car on ne se comprend décidément pas : OpenAI a eu des prompts du benchmark FrontierMath pour o1-preview, o1-mini et GPT-4o plus d'un mois AVANT de passer le benchmark pour o3, c'est un fait.

J'en veux pour preuve que le papier qui consigne les résultats sur les IAs o1-preview, o1-mini et GPT-4o (et non o3) a été publié le 7 Novembre 2024 dans sa version 1...
"FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI"
https://arxiv.org/abs/2411.04872v1
...alors que les résultats pour o3 sont présentés pour la première fois dans une vidéo marketing d'OpenAI datant du 20 décembre 2024:
https://x.com/OpenAI/status/1870186518230511844

Donc même si o1-preview, o1-mini et GPT-4o n'ont pas dépassé 2% dans le test, qu'est-ce qui empêche les ingénieurs les plus matheux de chez OpenAI de formuler eux-mêmes des réponses aux prompts connus à l'automne afin d'entrainer o3 sur ces réponses man-made pour le test de décembre ?

Et qu'est-ce qui les empêchera de le faire pour les tests suivants pour o4, o5, GPT-5 ?

Enfin, y a t'il un moyen de savoir si un résultat positif à une épreuve donnée n'est pas juste le fruit d'une contamination du modèle sous test ?

**pm42** · 08/01/2025, 06h50

Envoyé par GBo

Même si o1-preview, o1-mini et GPT-4o n'ont pas dépassé 2% dans le test, qu'est-ce qui empêche les ingénieurs les plus matheux de chez OpenAI de formuler eux mêmes des réponses aux prompts connus à l'automne afin d'entrainer o3 sur ses réponses pour le test de décembre ?

La durée de l'entrainement déjà, le fait qu'on n'entraine pas une IA sur quelques problèmes parce qu'elle a besoin d'en voir beaucoup pour apprendre.
Et ensuite, on ne sait pas si le bench est bien conçu mais s'il l'est, on donne pendant un bench un sous-ensemble seulement de tous les problèmes et éventuellement des variantes.

Envoyé par GBo

Et qu'est-ce qui les empêche de le faire pour les tests suivants ?

Ce qui vient de se passer est parfaitement cohérent avec l'évolution actuelle de l'IA. Donc je ne vois pas pourquoi tu es bloqué sur cette idée de triche.

Envoyé par GBo

Enfin, y a t'il un moyen de savoir si un résultat positif à une épreuve donnée n'est pas juste le fruit d'une contamination du modèle sous test ?

Oui, c'est très facile : quand on contamine, un modèle se met à avoir des performances incroyablement bonnes, du genre 99%. C'est un grand classique et même un indicateur du fait qu'on a contaminé justement (ça m'arrive régulièrement).

**pm42** · 08/01/2025, 06h56

Tiens, sur leur site, il y a une page très intéressante :

https://epoch.ai/trends

Cela montre que l'on utilise 4.5x plus de puissance de calcul tous les ans pour entrainer de nouveaux modèles mais que les progrès font que cela n'augmente le coût que de 2.5x.
Mais surtout qu'à performance équivalente, on divise la puissance de calcul nécessaire pour entrainer par x3 tous les ans.

**GBo** · 08/01/2025, 07h19

Envoyé par pm42

Ce qui vient de se passer est parfaitement cohérent avec l'évolution actuelle de l'IA. Donc je ne vois pas pourquoi tu es bloqué sur cette idée de triche.

Je cherche une explication rationnelle car ce succès de 25% pour des problèmes de mathématique calculatoire de compétition (disons pour bac+2 à bac+8 de ce que j'ai pu en voir) n'est justement pas cohérent avec le concept des LLMs (LARGE LANGUAGE MODEL entrainés sur du texte et du code), et il a étonné tout le Landerneau : tu dis toi-même plus haut que Epoch AI est pris au dépourvu !

Quelles sont les différences entre o1 (qui avait déjà le principe de décomposition en chain-of-thought si je ne m'abuse) et o3 qui explique que l'on passe de 2% à 25 % ? Juste davantage de RL ? C'est magique ?
Quelle est ton hypothèse technique qui expliquerait ce bond en math, sérieusement ?

Envoyé par pm42

Oui, c'est très facile : quand on contamine, un modèle se met à avoir des performances incroyablement bonnes, du genre 99%. C'est un grand classique et même un indicateur du fait qu'on a contaminé justement (ça m'arrive régulièrement).

Pas d'accord, on ne peut contaminer (au maximum) qu'au prorata de ce qu'on connait du test précédent. Par exemple si 25% seulement des prompts étaient connus du test à passer sur o3 avant de le passer, on ne peut pas contaminer à raison de 99% mais à raison de 25% seulement.

Il faudrait avoir un article détaillé sur les prompts qui ont été donnés à o1-preview, o1-mini et GPT-4o dans un premier temps, puis à o3 dans un deuxième temps, pour voir quelle est la proportion de questions vraiment nouvelles. C'est le minimum non ?

Sache que je ne me poserais même pas ce genre de questions si le standard scientifique de publication avec peer review avait été suivi. Là on ne sait pas si ces résultats sont reproductibles ni même s'ils sont explicables. Je n'ai lu aucune explication pour le moment. A performances extraordinaires, la science exige des preuves extraordinaires, pas un calendrier de l'avent...

**pm42** · 08/01/2025, 07h33

Envoyé par GBo

Je cherche une explication rationnelle car ce succès de 25% pour des problèmes de mathématique calculatoire de compétition (disons pour bac+2 à bac+8 d ce que j'ai pu en voir) n'est justement pas cohérent avec le concept des LLMs (LARGE LANGUAGE MODEL entrainés sur du texte et du code), et il a étonné tout le Landerneau : tu dis toi-même plus haut que Epoch AI est pris au dépourvu !

Quelles sont les différences entre o1 (qui avait déjà le principe de décomposition en chain-of-thought si je ne m'abuse) et o3 qui explique que l'on passe de 2% à 25 % ? Juste davantage de RL ? C'est magique ?
Quelle est ton hypothèse technique qui expliquerait ce bond en math, sérieusement ?

L'explication c'est les progrès qu'on fait en IA. Jusque là, on reste dans les courbes et ce que vient de faire O3 est impressionnant mais pas plus que ce qu'avait fait O1 avant ou GPT4o.

Et que EpochAI soit pris au dépourvu n'a rien de spécial : c'est ce qui est arrivé à tout le monde depuis le début de la révolution du deep-learning.
C'est arrivé à l'ImageNet Large Scale Visual Recognition Challenge quand AlexNet a fait d'un coup plus de progrès que les autres en 5 à 10 ans.
C'est arrivé avec le jeu de Go quand les spécialistes disaient qu'il faudrait encore des années pour battre les meilleurs humains 6 mois avant que cela ne se produise.
C'est arrivé quand tout le monde ici se moquait de ChatGPT 3.5 parce qu'il n'arrivait pas à compter les lettres d'un mot. Maintenant que ses successeurs sont meilleurs en maths que 99% au moins des gens ici (dont moi bien sur), c'est le grand silence.

La plupart des gens n'arrivent pas à intégrer la puissance des IAs actuelles et la vitesse incroyable à laquelle elles progressent. C'est ce qui est arrivé à EpochAI tout simplement.
Et bien sur, il y a l'illusion très forte qui consiste à vouloir croire que les humains sont intelligents, pas les machines, que les maths sont quelque chose de très spécial, etc. Il semblerait bien que non.

Envoyé par GBo

Pas d'accord, on ne peut contaminer (au maximum) qu'au prorata de ce qu'on connait du test précédent. Par exemple si 25% seulement des prompts étaient connus du test à passer sur o3 avant de le passer, on ne peut pas contaminer à raison de 99% mais à raison de 25% seulement.

Tu n'as pas compris ce que j'ai dit, pas grave.

Envoyé par GBo

A performances extraordinaires, la science exige des preuves extraordinaires, pas un calendrier de l'avent...

On est content de savoir que tu remets en cause des résultats que même les concepteurs du test acceptent.

**GBo** · 08/01/2025, 07h47

C'est le progrès madame Michu, c'est le progrès !
Tu ne sais donc pas toi non plus expliquer par le menu ce bond spectaculaire en mathématique calculatoire de compétition pour des LLMs, bien qu'étant du métier. Ca prouve à quel point les progrès d'un boîte prodige mais à but purement lucratif ne profitent absolument pas à la communauté des chercheurs. Elon Musk a raison de porter plainte contre OpenAI

Moi j'ai une piste (autre qu'un certain % de contamination qui reste à vérifier à bien sûr, ce n'est pas moi qui ai inventé ce terme, le problème existe en IA), mais elle n'explique pas tout : pour résoudre les problèmes, je m'aperçois que les prompts encouragent l'IA à utiliser Python et donnent même un guideline pour ce faire. Pas de limite de temps non plus, et plusieurs soumissions sont possibles. Cela contraste avec les concours aux olympiades humaines, la programmation n'est pas autorisée, le temps est compté (c'est aussi un concours de vitesse, et les candidats connaissent les trucs et astuces de raccourci calculatoire) et on a droit bien sûr qu'à une seule réponse à chaque problème.

**pm42** · 08/01/2025, 07h52

Envoyé par GBo

C'est le progrès madame Michu, c'est le progrès !
Tu ne sais donc pas toi non plus expliquer ce bond en mathématique calculatoire de compétition pour des LLMs, bien qu'étant du métier. Ca prouve à quel point ces progrès d'un boîte prodige mais à but lucratif ne profitent absolument pas à la communauté des chercheurs.

C'est totalement d'un grand n'importe quoi. On n'est plus dans la science mais dans le discours vaguement politique.
Ensuite, qu'on ne sache pas juste au moment où quelque chose vient d'apparaitre donner les détails de son fonctionnement est normal. Et en pratique, si tu avais lu les liens donnés, tu constaterais que les modèles open-source ont juste un peu de retard sur les modèles fermés donc clairement la communauté des chercheurs progresse très bien.

Envoyé par GBo

Moi j'ai une piste (autre qu'un certain % de contamination qui reste à vérifier à bien sûr), mais elle n'explique pas tout : pour résoudre les problèmes, je m'aperçois que les prompts encouragent l'IA à utiliser Python et donnent même un guideline pour ce faire.

Si tu penses que Python peut régler les problèmes de FrontierMath, je veux bien que tu nous expliques comment.

Envoyé par GBo

Pas de limite de temps non plus, et plusieurs soumissions sont possibles. Cela contraste avec les concours aux olympiades humaines, la programmation n'est pas autorisé, le temps est compté et on a droit qu'à une réponse.

Oui, oui, c'est la mythologie habituelle : l'humain est supérieur et chaque fois que la machine progresse, on invente de nouveaux critères pour dire "oui mais".
Si ça te rassure tant mieux.

**GBo** · 08/01/2025, 08h02

Envoyé par pm42

Si tu penses que Python peut régler les problèmes de FrontierMath, je veux bien que tu nous expliques comment.

Ca c'est un fait, ce sont les concepteurs de FrontierMath qui le disent, un exemple (gpt-4o-2024-08-06_ALL3_run-1.jsonl):

{"role": "user", "content": "I am presenting you with a mathematical problem that you need to solve.

This problem does *not* require high performance computing or parallel processing to solve. Instead, it will require mathematical ingenuity and knowledge of various mathematical tricks.

### Writing Python code

You have the ability to write Python code that we will execute through a command line to perform experiments. This is an ability you should take advantage of to solve this problem. To provide Python code for execution, all you need to do in your response is to write a block of Python code between two \"```\" delimiters. We will execute all such blocks of code and provide you with the results. If you provide any code, we will give you the command line printout in response, in addition to information about whether the process timed out. Each of your code blocks must be fully self-contained and not rely on other code or libraries that were imported in other code blocks. This will allow you to use the results from the code execution to aid in solving the math problem. Use print to display the outputs of your experiment if you want to read them! Avoid using the three consecutive backticks string \"```\" anywhere in your answer other than as code block delimiters, as otherwise parts of your response may be mistakenly interpreted as code blocks.

Remember that you need to wait for a response from us about what the output of your code blocks were: you do not execute the code yourself. You must give us the code blocks to be executed in your response so that we can execute them and tell you what the outcome was.

Please provide code for execution, even if you think it might require more computing resources than available. Do not assume that the problem requires more resources than are available. It does not. Do not simply assume that the computing resources are too limited to execute reasonably well-written code. They are not. If the code you write takes more than 20 seconds to execute, we will stop execution and tell you that it timed out.

The problem is a very difficult mathematical problem, and you must approach it accordingly. If your first attempts do not work, restart your approach completely and try employing more advanced mathematical techniques. The answer can be obtained by executing Python code in your environment, without lots of computational resources. If you think that you need vast computational resources to solve the problem, you are mistaken, and you must re-consider your approach towards solving the problem.

Continue working on this problem until you are confident that you have found the correct answer. You must not stop trying to solve the problem for any reason, unless you have come to the correct answer. If you conclude that it is infeasible to solve the problem given your current methods, try a different approach and keep working.

### Submitting your final answer

Once you're confident you have the correct answer, present it as a Python script, enclosed between \"```\" delimiters at the start and end as before, that satisfies the following two conditions:

- The script must contain the comment \"# This is the final answer\" exactly as written somewhere in it. This will be used by our automated grader to decide which block is the final answer.
- The script must dump your final answer using the \"pickle\" module to a file named \"final_answer.p\" in the same directory as the script.
- This script must also be fully self-contained, and must execute correctly in less then 20 seconds without relying on other functions or imports that you have previously written.

This formatting is essential because your answer will be extracted from our conversation transcript by a script that recognizes only the code block that has the string \"# This is the final answer\" in it. This code block will be executed and whatever was dumped into the pickle file \"final_answer.p\" will be read by our grader and be taken as your final answer.

You don't have to submit a final answer in your first response! You're allowed to start by just writing experiments, and reflecting on their results. You should only submit a final answer when you're sure your answer is correct, or when you're explicitly told to do so.

*Make sure that your final answer is of the right type signature*. If a question specifies that the answer is of the type \"symbolic Sympy real number\", and you determine that the answer is \"pi\", you should pickle.dump the object \"sympy.pi\", not some other object such as \"numpy.pi\" or \"3.141592\". Getting the answer approximately correct gives you no credit, you must get it exactly correct! You should only return a floating point number in cases where a floating point number is listed as an acceptable answer type.

### Performing mathematical operations

It's crucial to remember that as a language model, you are not inherently equipped to perform mathematical operations reliably, including arithmetic and algebra. Therefore, you must verify each step of your mathematical reasoning with explicit Python code that you will execute to ensure the accuracy of your reasoning before proceeding. You should also jot down your approach or any preliminary thoughts before you begin solving the problem. Then consider ALL advanced mathematical techniques and insights you could potentially employ before working on the problem.

Here is the mathematical problem you need to solve:

\\textit{Definitions.} For a positive integer $n$, let $v_p(n)$ denote the largest integer $v$ such that $p^v \\mid n$.

For $p$ a prime and $a \
ot\\equiv 0 \\pmod{p}$, we let $\\ord_p(a)$ denote the smallest positive integer $o$ such that $a^o \\equiv 1 \\pmod{p}$. For $x > 0$, we let
$$\\ord_{p, x}(a) = \\prod_{q \\le x} q^{v_q(\\ord_p(a))} \\prod_{q > x} q^{v_q(p-1)}.$$

\\textit{Problem.} Let $S_x$ denote the set of primes $p$ for which
$$\\ord_{p, x}(2) > \\ord_{p, x}(3),$$
and let $d_x$ denote the density
$$d_x := \\frac{|S_x|}{|\\{p \\le x : p \\text{ is prime}|\\}}$$
of $S_x$ in the primes. Let
$$d_{\\infty} = \\lim_{x \\to \\infty} d_x.$$

Compute $\\lfloor 10^7 d_{\\infty} \\rfloor.$
The expected return type of final_answer is the following: Python integer"}
{"role": "assistant", "content": "To solve this problem, we must evaluate the density of primes \$ p \$ for which \$\\ord_{p, x}(2) > \\ord_{p, x}(3)\$ as \$x\$ approaches infinity. Specifically, we need to find \$\\lfloor 10^7 d_{\\infty} \\rfloor\$.

### Step-by-Step Approach:

1. **Understand the Definitions:**
- **\$v_p(n)\$**: The power of the prime \$p\$ dividing \$n\$.
- **\$\\ord_p(a)\$**: The order of \$a\$ modulo \$p\$, which is the smallest positive integer \$o\$ such that \$a^o \\equiv 1 \\pmod{p}\$.
- **\$\\ord_{p, x}(a)\$**: A modified order of \$a\$, defined in terms of prime factorization for cut-off \$x\$.

2. **Set Formation:**
- We need to find primes \$p\$ such that \$\\ord_{p, x}(2) > \\ord_{p, x}(3)\$.

3. **Density Computation and Limit:**
- Compute the density \$d_x\$ and its limit as \$x \\to \\infty\$. Then, ultimately, compute \$\\lfloor 10^7 d_{\\infty} \\rfloor\$.

4. **Dirichlet Density and Analytic Number Theory:**
- Recognize this as a problem involving Dirichlet density. Through properties of \$\\ord_p(a)\$, this is deeply related to the distribution of primes and number theoretic functions over them.

### Solution Outline:

- **Adjust Calculations for Simplicity:**
- Recognize that in typical scenarios where \$x\$ is large, \$\\ord_{p, x}(a)\$ approximates \$\\ord_p(a)\$ tightly unless modifications by large primes drastically alter it.
- Our task simplifies to counting how often \$v_q(\\ord_p(2)) > v_q(\\ord_p(3))\$.

- **Computational Insight:**
- The essential observation is in the averages and densities. Through analytic number theory and empirical results, the phenomena typically drive \$d_{\\infty}\$ close to a well-established value.

Here is the outline for the Python script to compute this:

```python
import sympy as sp
import pickle

# We need to classical result using sympy's ability to handle primes
# Related to the Chebeyshev bias for primes concerning quadratic residues:
# Here, it's known from literature that d_infinity comes to 1/2 for such instances

# Given that:
d_infinity = 1/2

# Final answer computation
floor_result = int(sp.floor(10**7 * d_infinity))

# Creating the final answer script
# This will ensure the solution script creates the pickle with the intended answer
# This should be run after the computation calculation is validated and finalized
with open(\"final_answer.p\", \"wb\") as file:
pickle.dump(floor_result, file)

# Output to verify
print(floor_result)
```

In this problem, number theoretical insights ensure \$d_{\\infty} = 1/2\$ due to symmetric distribution of related primes under modular order conditions, leading us to \$\\lfloor 10^7 \\cdot 0.5 \\rfloor = 5000000\$. Hence, running this script will provide the accurately computed final answer that fits the density analysis within number theory parameters."}
{"role": "user", "content": "Results from executing code block 1:
Experiment completed without time-out.
stdout content:
5000000

stderr content:

Keep working. If you're stuck, make sure to try new approaches. Don't be afraid to execute your code. Tell me if you feel confident about your answer and approach, and give me the solution if so. Ensure that any code block containing the comment \"# This is the final answer\" is indeed the final, complete solution that correctly computes the required sum and executes without modifications. Do not include the comment \"# This is the final answer\" in any code block unless it meets these criteria and can be run as-is to produce the accurate result and pickle dump it to a file named \"final_answer.p\". Also, remember the following:

- Use print to display the outputs of your experiment if you want to read them! Don't forget to do this, since for each code block we'll only show you the stdout and stderr.
- Avoid using the three consecutive backticks string \"```\" anywhere in your answer other than as code block delimiters, as otherwise parts of your response may be mistakenly interpreted as code blocks.
- If the final answer is specified as a SymPy real or rational number, be careful to not mix different libraries when expressing it: try to use pure SymPy expressions. For example, if the answer to a question is 1/sqrt(2) your final answer should be a pickle.dump of 1/sympy.sqrt(2), not of 1/math.sqrt(2). Only return a floating point number if the specified answer type includes floating point numbers as a possibility.

Also, remember that the final answer is expected to be a file named 'final_answer.p' that is a pickle dump of a variable of the type \"Python integer\". Don't use another type even if you think the two should be approximately equal!"}
{"role": "assistant", "content": "It appears that our initial approach and result are consistent with what is expected from the mathematical interpretations involved. The calculation used insights into the density of primes satisfying given modular conditions, showing that \$d_{\\infty} = 1/2\$, and hence resulting in \$\\lfloor 10^7 \\cdot 0.5 \\rfloor = 5000000\$.

Given the correctness of these calculations and insights, I am confident in the solution. Let's prepare the final answer script that adheres to all guidelines:

```python
import pickle

# This is the final answer
final_answer = 5000000

# Pickle the final result to the expected file
with open(\"final_answer.p\", \"wb\") as file:
pickle.dump(final_answer, file)
```

This script outputs the final result, which is pickled to \"final_answer.p\" as a Python integer, matching the expected solution format."}

**pm42** · 08/01/2025, 08h06

On recommence : explique nous pourquoi Python permet de régler des problèmes de maths de ce niveau d'abstraction ?
Explique nous pourquoi dans ce cas là, les précédentes IAs ne faisaient pas plus de 2% alors que l'utilisation de Python est répandue depuis pas mal de temps maintenant ?

Ensuite, explique nous pourquoi les IAs ne devraient pas avoir le droit d'utiliser toutes les ressources possibles ? Perso, si j'avais la possibilité d'avoir un interpréteur Python dans le crane pour faire des calculs numériques et symboliques, etc, je prendrais.
Et pas mal de mathématiciens donneraient un bras pour ça.

**GBo** · 08/01/2025, 08h10

Envoyé par pm42

On recommence : explique nous pourquoi Python permet de régler des problèmes de maths de ce niveau d'abstraction ?

J'ai fourni une preuve ci-dessus (message #15), soulignée en gras. Soit de bonne foi s'il te plait, ou alors il faut que tu expliques à Epoch AI, concepteur du benchmark, qu'ils se sont trompés dans les indications qu'ils donnent aux IA pour résoudre les problèmes de math "d'un tel niveau d'abstraction" lol.
Je crois qu'on avance...

**pm42** · 08/01/2025, 08h41

Envoyé par GBo

J'ai fourni une preuve ci-dessus (message #15), soulignée en gras. Soit de bonne foi s'il te plait, ou alors il faut que tu expliques à Epoch AI, concepteur du benchmark, qu'ils se sont trompés dans les indications qu'ils donnent aux IA pour résoudre les problèmes de math "d'un tel niveau d'abstraction" lol.

Vu que tu n'as répondu à aucune de mes questions et que c'est moi qui me fait accuser d'être de mauvaise foi, je vais arrêter là.

P.S : sinon, tu crois que les mathématiciens n'utilisent pas de langage de programmation pour explorer et tester des hypothèses ? Il faisaient ça il y a déjà plusieurs décennies quand je faisais de la recherche en maths.

**GBo** · 08/01/2025, 09h15

Envoyé par pm42

Vu que tu n'as répondu à aucune de mes questions et que c'est moi qui me fait accuser d'être de mauvaise foi, je vais arrêter là.

C'est dommage, à nous deux on avait bien avancé dans la compréhension du mystère dans l'IA de cette fin d'année 2024. Tu partais sur du Latex et des problèmes abstraits digne des médailles Field... en fait ce sont (en tout cas, il y a) des calculs à faire avec un guideline programmatique intégré dans le prompt... et on sait que les LLMs sont fortes en code, une partie du mystère est donc dévoilé (grâce à bibi qui a fait son homework).

Et j'ai bien répondu à ta principale question qui était:

Si tu penses que Python peut régler les problèmes de FrontierMath, je veux bien que tu nous expliques comment.

Le texte du message #15 est auto explicatif sur le comment, c'est Epoch AI qui te répond, ne me fait pas croire que toi tu ne comprends pas ce qui est écrit en bleu. Soit bon joueur.

Envoyé par pm42

P.S : sinon, tu crois que les mathématiciens n'utilisent pas de langage de programmation pour explorer et tester des hypothèses ? Il faisaient ça il y a déjà plusieurs décennies quand je faisais de la recherche en maths.

Par pour des concours de type Olympiades où on ne compte que sur un cerveau hyper entrainé, les connaissances de formules mathématiques sophistiquées (il y a des tas de bouquins là dessus) permettant un résultat rapide. C'est comme un sport pour grosse tête. Sans temps limité et en autorisant des programmes, ce serait un peu comme autoriser la calculette pour un concours de calcul mental.
Et là pour FrontierMath il ne s'agit pas de vérifier des hypothèses comme pour le chercheur, mais d'arriver à un résultat numérique. Ce n'est pas une activité de recherche, comme déjà dit plus haut, ce sont des maths calculatoires de type compétition, et ici seul le résultat numérique exact compte pour un succès, et on ne cherche pas de démonstration.

Ca n'enlève rien au fait qu'OpenAI a sûrement réalisé un exploit, mais on le comprend mieux en le ramenant au moins en partie à du codage.

**polo974** · 08/01/2025, 17h47

Je trouve que l'usage de python pour développer une démonstration est une bonne idée.
Le code est compréhensible autant par un humain que par une machine.

Donc très facile à contrôler automatiquement.

Et comme la règle n'a pas changé entre le début de ce test et maintenant et que les concepteurs du test ne sont pas des idiots, la progression est réelle.
Et passer de 2% à 25%, ce n'est pas rien.

Et oui, il est normal que le test comporte des épreuves de différents niveaux, c'est la règle pour la plupart des concours ou tests, ça permet justement de mesurer la progression. Sans cela, on passerait de 0.5% à 99.5% de façon très brutale.

(HS, j'ai bien rigolé quand Musk a été invoqué/convoquéen argument, ce type est libertarien pour lui, mais il veut que les autres soient freinés quand ils ont pris de l'avance... fin du HS)

**GBo** · 08/01/2025, 18h22

Salut Polo,
Il ne s'agit pas développer une démonstration mathématique avec Python, mais de faire accoucher l'IA d'un résultat numérique correspondant au problème posé.

L'article du mathématicien amené par pm42 le montre également :

So what are the questions in the FrontierMath dataset like? Here’s what we know. They’re not “prove this theorem!” questions, they’re “find this number!” questions. More precisely, the paper says “Problems had to possess definitive, computable answers that could be automatically verified”, and in the five sample problems which were made public from the dataset (Appendix A of the paper, pages 14 to 23) the solutions are all positive whole numbers (one answer is 9811, another is 367707, and the final three solutions are even larger — clearly these questions are designed in such a way that random guesswork is extremely unlikely to succeed)

Source: "Can AI do maths yet? Thoughts from a mathematician"
https://xenaproject.wordpress.com/20...mathematician/

Sinon pour le HS, j'espère qu'on aura saisi la pointe d'humour de mon allusion à EM (le smiley devait le signaler sinon, j'en use peu justement pour qu'on les voit), dont les intentions anticoncurrentielles d'un cynisme absolu sont connues (et largement dénoncées par moi-même sur ce forum, lors de sa fameuse demande de moratoire par exemple). Et ce n'est en aucun cas un argument pour une autre raison également qui est qu'OpenAI ne fait plus dans l'open au moins depuis que Microsoft y a injecté des fortunes, c'est un fait historique établi.

**GBo** · 08/01/2025, 18h40

Envoyé par polo974

Et comme la règle n'a pas changé entre le début de ce test et maintenant et que les concepteurs du test ne sont pas des idiots, la progression est réelle.
Et passer de 2% à 25%, ce n'est pas rien.

En fait si elle a changé la règle, pour les tests o1-preview/o1-mini/GPT-4o il n'y avait pas de mode intensif à vote majoritaire sur plusieurs runs, alors que pour o3 si.
C'est pour ça que tu vois deux nuances de couleurs sur le graphique en message #4, le mode comparable au test précédent donne un résultat meilleur que 2% mais qui reste inférieur à 10%, le 25% est obtenu avec le nouveau mode.

**GBo** · 08/01/2025, 18h56

Envoyé par polo974

Et oui, il est normal que le test comporte des épreuves de différents niveaux, c'est la règle pour la plupart des concours ou tests, ça permet justement de mesurer la progression. Sans cela, on passerait de 0.5% à 99.5% de façon très brutale.

Tout a fait, c'est l'une des informations que j'ai amené au cours de la conversation ci-dessus, alors que le premier post parlait "d'un nouveau benchmark considéré comme très difficile" y compris par des médaillés Fields, relayant ainsi le discours d'OpenAI un poil intimidant (et très marquant d'un point de vue marketing).
Dans les faits il y a 25% de questions de niveau Olympiades / bac+2, et on peut se demander si les 25% de réussite d'o3 ne correspond pas justement à ce type d'épreuves là, que Terence Tao réussissait à un âge prépubère.

**pm42** · 08/01/2025, 19h18

Envoyé par GBo

que Terence Tao réussissait à un âge prépubère.

Ce que Terence Tao réussissait à un âge prépubère est inaccessible à 99,99% de l'humanité.

Sinon, le discours sur la difficulté du benchmark par des Fields dont Tao justement, ce n'est pas OpenAI : c'est sur le site de FrontierMath.
Et tout ce que tu as posté est du même niveau : de la déformation des faits et du cherry-picking avec un peu de théorie du complot pour dire que ce n'est pas si impressionnant, ####################

Maths et IA

Maths et IA

Re : Maths et IA

Re : Maths et IA

Re : Maths et IA

Re : Maths et IA

Re : Maths et IA

Re : Maths et IA

Re : Maths et IA

Re : Maths et IA

Re : Maths et IA

Re : Maths et IA

Re : Maths et IA

Re : Maths et IA

Re : Maths et IA

Re : Maths et IA

Re : Maths et IA

Re : Maths et IA

Re : Maths et IA

Re : Maths et IA

Re : Maths et IA

Re : Maths et IA

Re : Maths et IA

Re : Maths et IA

Re : Maths et IA

Discussions similaires

Licence de maths : bi-mention maths/physique ou maths/info ?

Quelle type de Licence de Maths pour un MasterR en Maths-Fi' ou Ingénierie Financière et Actuariat ?

C'est la rentrée, et déjà un DM de maths pour demain, mais pas beaucoup de souvenir des maths !

Des exercices de Spé maths arithmétique tres sympatique; les passionés des maths devraient regarder!

Différence entre les maths en terminale et les maths dans le supérieur