\documentclass[letterpaper,11pt,english,french]{memoir}
  \usepackage{natbib}
  \usepackage{babel}
  \usepackage[babel=true]{microtype}
  \usepackage[autolanguage]{numprint}
  \usepackage{amsmath,amsthm,amsfonts}
  \usepackage{fancyvrb}
  \usepackage{soul}

  %% Informations de la page de titre
  \title{Exemple de document élaboré}
  \author{Vincent Goulet}

  %% Polices de caractères (configuration fonction du moteur utilisé)
  \usepackage{iftex}            % détection du moteur
  \iftutex                      % XeLaTeX
    \usepackage{fontspec}
    \usepackage{unicode-math}
    \setmainfont{STIXTwoText}
    [
      Extension = .otf,
      UprightFont = *-Regular,
      BoldFont = *-SemiBold,
      ItalicFont = *-Italic,
      BoldItalicFont = *-SemiBoldItalic,
      Scale = 1,
      Ligatures = TeX
    ]
    \setmathfont{STIXTwoMath-Regular}
    [
      Extension = .otf,
      Scale = 1,
      Ligatures = TeX
    ]
  \else                         % pdfLaTeX
    \usepackage[utf8]{inputenc}
    \usepackage[T1]{fontenc}
    \usepackage{stix2}
  \fi
  \usepackage{icomma}           % charger après les polices

  %% Couleurs
  \usepackage{xcolor}
  \definecolor{comments}{rgb}{0.7,0,0}
  \definecolor{shadecolor}{gray}{0}
  \definecolor{link}{rgb}{0,0.4,0.6}   % ~RoyalBlue de dvips
  \definecolor{url}{rgb}{0.6,0,0}      % rouge-brun
  \definecolor{citation}{rgb}{0,0.5,0} % vert foncé

  %% Hyperliens
  \usepackage{hyperref}
  \hypersetup{
    pdfauthor = {Vincent Goulet},
    colorlinks,
    linktocpage,
    urlcolor = url,
    linkcolor = link,
    citecolor = citation,
    bookmarksopen,
    bookmarksnumbered,
    bookmarksdepth = subsubsection
  }
  \renewcommand{\figureautorefname}{figure}
  \renewcommand{\tableautorefname}{tableau}
  \newcommand{\subtableautorefname}{tableau}
  \newcommand{\exempleautorefname}{exemple}
  \newcommand{\algorithmeautorefname}{algorithme}

  \frenchbsetup{%
    CompactItemize=false,          % ne pas compacter les listes
    ThinSpaceInFrenchNumbers=true, % espace fine dans les nombres
    og=«, fg=»                     % guillemets français
  }

  %% Environnements d'exemples et al.
  \theoremstyle{plain}
  \newtheorem{algorithme}{Algorithme}[chapter]
  \newtheorem{thm}{Théorème}[chapter]

  \theoremstyle{definition}
  \newtheorem{exemple}{Exemple}[chapter]
  \newtheorem{definition}{Définition}[chapter]
  \newtheorem*{astuce}{Astuce}

  \theoremstyle{remark}
  \newtheorem*{remarque}{Remarque}
  \newenvironment{rem}{\begin{remarque} \mbox{}}{\end{remarque}}

  %% Nouveaux environnements pour le code informatique R
  \DefineVerbatimEnvironment{Sinput}{Verbatim}{fontshape=sl}
  \DefineVerbatimEnvironment{Soutput}{Verbatim}{}
  \DefineVerbatimEnvironment{Scode}{Verbatim}{fontshape=sl}
  \newenvironment{Schunk}{}{}

  %% Nouvelles commandes
  \newcommand{\code}[1]{\texttt{#1}}
  \newcommand{\ieee}[3]{\fbox{$#1$}\hspace{2pt}\fbox{$#2$}\hspace{2pt}\fbox{$#3$}}
  \newcommand{\fl}{\mathrm{fl}}

  %% Numéroter les sous-sections
  \maxsecnumdepth{subsection}

  %% Sous-tableaux et figures
  \newsubfloat{table}

  %% Style de la bibliographie.
  \bibliographystyle{francais}

\begin{document}

\frontmatter                    % pages liminaires

\begin{titlingpage}
  \maketitle                    % production de la page de titre
\end{titlingpage}
\cleardoublepage

\tableofcontents                % production de la TdM
\cleardoublepage

\mainmatter                     % corps du document

\chapter{Arithmétique des ordinateurs}
\label{chap:ordinateurs}

\section{Les ordinateurs ne savent pas compter}
\label{sec:ordinateurs:introduction}

Le type de bogue le plus fréquemment rapporté dans les forums de
discussion de R a trait au fait que le logiciel ne retourne
pas le bon résultat lors d'opérations arithmétiques simples.

On devine que les créateurs de R n'ont pas négligé une fonctionnalité
aussi fondamentale pour un langage mathématique que le calcul
arithmétique. Les supposées erreurs ci-dessus relèvent toutes de la
représentation interne des nombres dans un ordinateur et d'erreurs
d'arrondi inhérentes aux opérations arithmétiques avec ces nombres. En
effet, un des plus célèbres principes de programmation proposés par
\cite{Kernighan:style:1978} est:
\begin{center}
  \label{programming_principle}
  $10,0$ fois $0,1$ ne donne jamais vraiment $1,0$.
\end{center}
D'ailleurs, les auteurs des faux rapports de bogues dans
\texttt{r-help} sont invariablement renvoyés à l'\href{http://cran.r-project.org/doc/FAQ/R-FAQ.html#Why-doesn_0027t-R-think-these-numbers-are-equal_003f}{entrée 7.31} de la
foire aux questions\footnote{%
  \url{https://cran.r-project.org/doc/FAQ/R-FAQ.html}} %
de R.

Pour quiconque travaille régulièrement avec un ordinateur pour faire
du calcul scientifique, connaitre globalement le fonctionnement
interne d'un ordinateur peut s'avérer précieux pour les raisons
suivantes, entre autres:
\begin{itemize}
\item éviter les erreurs d'arrondi et de troncature;
\item éviter les dépassements et soupassements de capacité
  (\emph{overflow} et \emph{underflow});
\item optimiser le code informatique.
\end{itemize}

Ce chapitre se penche sur les grands principes de l'arithmétique des
ordinateurs. En fait, les ordinateurs ne savent pas faire
d'arithmétique à proprement parler. Ils ne connaissent que deux états:
ouvert (1) et fermé (0). Nous en profiterons donc d'abord pour réviser
la conversion des nombres décimaux vers, et de, n'importe quelle base.
Après avoir, à la \autoref{sec:ordinateurs:unites}, introduit les
principales unités de mesure en informatique, nous expliquerons la
représentation interne des nombres dans un ordinateur en nous
concentrant sur la double précision. Nous pourrons ainsi justifier que
les ordinateurs ne peuvent représenter qu'un sous-ensemble des nombres
réels, d'où les erreurs d'arrondi et de troncature. La
\autoref{sec:ordinateurs:arithmetique} explique comment ces erreurs
surviennent. On y donne également quelques pistes pour éviter ou pour
diminuer l'impact de ces erreurs. Enfin, le chapitre se clôt par un
survol d'un sujet quelque peu périphérique: la représentation interne
des caractères.


\section{Conversion de base}
\label{sec:ordinateurs:conversion}

La \emph{base}, dans un système de numération, est le nombre de
symboles (habituellement les chiffres) qui pourront servir à exprimer
des nombres. L'humain s'est habitué à compter en base $10$, le système
\emph{décimal}, où les symboles sont $0, 1, \dots, 9$. De nos jours,
la grande majorité des ordinateurs travaillent toutefois en base $2$, le
système \emph{binaire}. Les autres système d'usage courant,
principalement en informatique, sont l'\emph{octal} (base $8$) et
l'\emph{hexadécimal} (base $16$). Dans ce dernier système, les symboles
utilisés pour les nombres $10$--$15$ sont généralement les lettres A--F.
(C'est pourquoi l'on retrouve ces six lettres sur le pavé des
calculatrices scientifiques).

Cette section étudie la conversion des nombres entre la base $10$ et une
autre base quelconque.

\subsection{Notation et définitions}
\label{sec:ordinateurs:conversion:notation}

De manière générale, soit $x$ un nombre (entier pour le moment) dans
la base de numération $b$ composé de $m$ chiffres ou symboles, c'est-à-dire
\begin{equation*}
  x = x_{m-1}x_{m-2} \cdots x_1x_0,
\end{equation*}
où $0 \leq x_i \leq b - 1$. On a donc
\begin{equation}
  \label{eq:ordinateurs:def_base}
  x = \sum_{i = 0}^{m - 1} x_i b^i.
\end{equation}

Lorsque le contexte ne permet pas de déterminer avec certitude la base
d'un nombre, celle-ci est identifiée en indice du nombre par un nombre
décimal. Par exemple, $10011_2$ est le nombre binaire $10011$.

\begin{exemple}
  Soit le nombre décimal $348$. Selon la notation ci-dessus, on a $x_0 =
  8$, $x_1 = 4$, $x_2 = 3$ et $b = 10$. En effet,
  \begin{displaymath}
    348 = 3 \times 10^2 + 4 \times 10^1 + 8 \times 10^0.
  \end{displaymath}
  Ce nombre a les représentations suivantes dans d'autres bases. En binaire:
  \begin{align*}
    101011100_{2}
    &= 1 \times 2^8 + 0 \times 2^7 + 1 \times 2^6 \\
    &\phantom{=} + 0 \times 2^5 + 1 \times 2^4 + 1 \times 2^3 \\
    &\phantom{=} + 1 \times 2^2 + 0 \times 2^1 + 0 \times 2^0.
  \end{align*}
  En octal:
  \begin{equation*}
    534_{8} = 5 \times 8^2 + 3 \times 8^1 + 4 \times 8^0.
  \end{equation*}
  En hexadécimal:
  \begin{equation*}
    15\mathrm{C}_{16} = 1 \times 16^2 + 5 \times 16^1 + 12 \times 16^0.
  \end{equation*}
  Des représentations ci-dessus, l'hexadécimale est la plus compacte:
  elle permet de représenter avec un seul symbole un nombre binaire
  comptant jusqu'à quatre chiffres. C'est, entre autres, pourquoi
  c'est une représentation populaire en informatique.%
  \qed
\end{exemple}

Dans un ordinateur réel (par opposition à théorique), l'espace
disponible pour stocker un nombre est fini, c'est-à-dire que $m <
\infty$. Le plus grand nombre que l'on peut représenter avec $m$
chiffres ou symboles en base $b$ est
\begin{align*}
  x_{\text{max}}
  &= \sum_{i = 0}^{m - 1} (b - 1) b^i \\
  &= (b - 1) \sum_{i = 0}^{m - 1} b^i \\
  &= (b - 1)
  \left(
    \frac{b^m - 1}{b - 1}
  \right) \\
  &= b^m - 1.
\end{align*}

Par exemple, le plus grand nombre décimal représentable avec $m = 4$
symboles est
\begin{equation*}
  x_{\text{max}} = \nombre{9999} = \nombre{10000} - 1 = 10^4 - 1,
\end{equation*}
alors que le plus grand nombre binaire est seulement
\begin{equation*}
  x_{\text{max}} = 1111 = 10000 - 1 = 2^4 - 1 = 15_{10}.
\end{equation*}

Par une extension naturelle de ce qui précède, un nombre composé de $m
\geq 0$ symboles dans sa partie entière et $n \geq 0$ symboles dans sa
partie fractionnaire est représenté en base $b$ comme
\begin{align*}
  x
  &= x_{m-1}x_{m-2} \cdots x_1x_0,x_{-1}x_{-2} \cdots x_{-n} \\
  &= \sum_{i = -n}^{m - 1} x_i b^i.
\end{align*}
Le symbole qui sépare les parties entière et fractionnaire du nombre
est la \emph{séparation fractionnaire} (une virgule en français, un
point en anglais).


\subsection{Conversion vers une base quelconque}
\label{sec:ordinateurs:conversion:10_vers_b}

Avant de discuter de la conversion de nombres décimaux vers une base
quelconque, il convient de définir les notions de \emph{quotient} et
de \emph{reste} d'une division.

Le quotient est la partie entière de la division de deux entiers $a$
et $d$; sa représentation mathématique habituelle est
\begin{equation}
  \label{eq:ordinateurs:quotient}
  q = \left\lfloor \frac{a}{d} \right\rfloor,
\end{equation}
où $\lfloor x \rfloor$ est la fonction qui retourne le plus grand
entier inférieur ou égal à $x$. Le reste de la division est simplement
la valeur
\begin{equation}
  \label{eq:ordinateurs:remainder}
  r = a - d \left\lfloor \frac{a}{d} \right\rfloor.
\end{equation}
Évidemment, on a $r \in \{0, 1, \dots, d - 1\}$. Le reste est le
résultat de l'opération modulo, notée $r = a \bmod d$.

On remarquera que le premier chiffre en partant de la droite d'un
entier décimal est le reste de la division de ce nombre par $10$, que le
second chiffre est le reste de la division par $10$ du quotient de la
division précédente, et ainsi de suite. La conversion d'un nombre
décimal en une base $b$ implique simplement de diviser par $b$ plutôt
que par $10$ et de déterminer le symbole dans la base $b$ correspondant
au reste de chaque division.

L'algorithme suivant reprend ses idées sous forme plus formelle et en
ajoutant le traitement de la partie fractionnaire. Nous démontrerons
plus loin qu'il n'est pas réellement nécessaire de savoir effectuer la
conversion de la partie fractionnaire d'un nombre réel.

\begin{algorithme}[Conversion de la base $10$ vers la base $b$]
  \label{algo:ordinateurs:10_vers_b}
  Soit $x$ un nombre réel en base $10$.
  \begin{enumerate}
  \item Poser $i \leftarrow 0$ et $v \leftarrow \lfloor x \rfloor$.
  \item Répéter les étapes suivantes jusqu'à ce que $v = 0$:
    \begin{enumerate}
    \item Poser $d_i \leftarrow v \bmod b$ et trouver $x_i$, le
      symbole dans la base $b$ correspondant à $d_i$;
    \item Poser $v \leftarrow \lfloor v/b \rfloor$;
    \item Poser $i \leftarrow i + 1$.
    \end{enumerate}
  \item Poser $i \leftarrow 1$ et $v \leftarrow x - \lfloor x
    \rfloor$.
  \item Répéter les étapes suivantes jusqu'à ce que $v = 0$ ou que $i
    = n$ (le nombre voulu ou maximal de chiffres après la séparation
    fractionnaire):
    \begin{enumerate}
    \item Poser $d_{-i} \leftarrow \lfloor bv \rfloor$ et trouver $x_{-i}$, le
      symbole dans la base $b$ correspondant à $d_{-i}$;
    \item Poser $v \leftarrow bv - d_{-i}$;
    \item Poser $i \leftarrow i + 1$.
    \end{enumerate}
  \item Retourner
    \begin{displaymath}
      x_b = x_{m-1}x_{m-2} \cdots x_1x_0,x_{-1}x_{-2} \cdots x_{-n}.
    \end{displaymath}
  \end{enumerate}
\end{algorithme}

\begin{exemple}
  \label{ex:ordinateurs:10_vers_b}
  Soit le nombre décimal $23,31$ que l'on convertit en binaire (base
  $2$) avec un maximum de cinq chiffres après la séparation
  fractionnaire ($n = 5$). Le \autoref{tab:ordinateurs:10_vers_b}
  montre le processus en suivant les étapes de
  l'\autoref{algo:ordinateurs:10_vers_b}. On obtient le
  résultat final en combinant la dernière colonne du
  \autoref{tab:ordinateurs:10_vers_b:a} lue de bas en haut avec la
  dernière colonne du \autoref{tab:ordinateurs:10_vers_b:b} lue de
  haut en bas. Ainsi, la représentation binaire du $23,31$ limitée à
  cinq chiffres après la virgule est $10111,01001$.

  \begin{table}
    \caption{Conversion du nombre décimal $23,31$ en binaire.}
    \label{tab:ordinateurs:10_vers_b}
    \begin{minipage}[t]{0.45\linewidth}
      \subcaption{partie entière}
      \label{tab:ordinateurs:10_vers_b:a}
      \begin{tabular*}{\linewidth}{crrcc}
        \toprule
        $i$ & \multicolumn{1}{c}{$v$} & $\lfloor v/2 \rfloor$ & $v \bmod 2$ & $x_i$ \\
        \midrule
        $0$ & $23$ & $11$ & $1$ & $1$ \\
        $1$ & $11$ &  $5$ & $1$ & $1$ \\
        $2$ &  $5$ &  $2$ & $1$ & $1$ \\
        $3$ &  $2$ &  $1$ & $0$ & $0$ \\
        $4$ &  $1$ &  $0$ & $1$ & $1$ \\
        \bottomrule
      \end{tabular*}
    \end{minipage}
    \hfill
    \begin{minipage}[t]{0.45\linewidth}
      \subcaption{partie fractionnaire}
      \label{tab:ordinateurs:10_vers_b:b}
      \begin{tabular*}{\linewidth}{ccccc}
        \toprule
        $i$ & $v$ & $2v$ & $\lfloor 2v \rfloor$ & $x_{-i}$ \\
        \midrule
        $1$ & $0,31$ & $0,62$ & $0$ & $0$ \\
        $2$ & $0,62$ & $1,24$ & $1$ & $1$ \\
        $3$ & $0,24$ & $0,48$ & $0$ & $0$ \\
        $4$ & $0,48$ & $0,96$ & $0$ & $0$ \\
        $5$ & $0,96$ & $1,92$ & $1$ & $1$ \\
        \bottomrule
      \end{tabular*}
    \end{minipage}
  \end{table}
  \qed
\end{exemple}

\begin{exemple}
  \label{ex:ordinateurs:10_vers_b:bis}
  Soit de nouveau la conversion de $23,31$ en binaire avec une partie
  fractionnaire d'au plus cinq chiffres. En suivant les étapes de la
  remarque ci-dessus, on a:
  \begin{enumerate}
  \item $23,31 \times 2^5 = 23,31 \times 32 = 745,92$;
  \item la représentation binaire de $745 = 2^9 + 2^7 + 2^6 + 2^5 +
    2^3 + 1$ est $1011101001$;
  \item enfin, en déplaçant la virgule de cinq positions vers la
    gauche, on obtient $10111,01001$, comme à
    l'\autoref{ex:ordinateurs:10_vers_b}.
  \end{enumerate}
  \qed
\end{exemple}

On tire une conclusion intéressante de la procédure ci-dessus. S'il
existe un entier $k \leq n$ tel que la partie fractionnaire de $x$ est
un multiple de $1/b^k$, alors la multiplication de $x$ par $b^k$
résultera en un entier. Par conséquent, la représentation de $x$ en
base $b$ aura une partie fractionnaire de longueur finie. Ainsi, pour
obtenir une représentation binaire finie, la partie fractionnaire d'un
nombre réel doit être un multiple de $\frac{1}{2}, \frac{1}{4},
\frac{1}{8}, \dots$ Ce n'était pas le cas à
l'\autoref{ex:ordinateurs:10_vers_b:bis} (la partie fractionnaire
étant $0,31$), d'où la nécessité de limiter le nombre de chiffres
après la virgule.

\subsection{Conversion en décimal}
\label{sec:ordinateurs:conversion:b_vers_10}

La conversion d'un nombre en base $b$ vers la base $10$ repose
essentiellement sur la définition \eqref{eq:ordinateurs:def_base},
mais avec chaque symbole $x_i$ remplacé pour son équivalent décimal.
Un algorithme de conversion est le suivant.

\begin{algorithme}[Conversion de la base $b$ vers la base $10$]
  \label{algo:ordinateurs:b_vers_10}
  Soit $x$
  \begin{displaymath}
    x_b = x_{m-1}x_{m-2} \cdots x_1x_0,x_{-1}x_{-2} \cdots x_{-n}
  \end{displaymath}
  un nombre réel en base $b$.
  \begin{enumerate}
  \item Poser $x \leftarrow 0$ et $y \leftarrow 0$.
  \item Pour $i = m - 1, m - 2, \dots, 0$, faire les étapes suivantes:
    \begin{enumerate}
    \item Trouver $d_i$, le nombre décimal correspondant au symbole
      $x_i$;
    \item Poser $x \leftarrow x b + d_i$.
    \end{enumerate}
  \item Pour $i = -n, -n + 1, \dots, -1$, faire les étapes suivantes:
    \begin{enumerate}
    \item Trouver $d_i$, le nombre décimal correspondant au symbole
      $x_i$;
    \item Poser $y \leftarrow (y + d_i)/b$.
    \end{enumerate}
  \item Retourner $x + y$.
  \end{enumerate}
\end{algorithme}

On peut, ici aussi, aisément éviter de devoir convertir la partie
fractionnaire. Il suffit de déplacer la virgule de $n$ positions vers
la droite dans le nombre $x_b$ de manière à obtenir un entier, de
convertir ce nombre en décimal avec les étapes 1 et 2 de
l'\autoref{algo:ordinateurs:b_vers_10} et, finalement, de
diviser le nombre obtenu par $b^n$.

\begin{exemple}
  \label{ex:ordinateurs:b_vers_10}
  On convertit le nombre binaire $101011,011$ en décimal. Le
  \autoref{tab:ordinateurs:b_vers_10} illustre le processus de
  conversion selon l'\autoref{algo:ordinateurs:b_vers_10} (le chiffre
  en surbrillance est celui traité lors de chaque étape de
  l'algorithme). Le résultat final est $43,375$.

  De manière équivalente, mais plus simple, on peut déplacer la
  virgule de trois positions vers la droite pour obtenir l'entier
  binaire $101011011$. Ce nombre est $2^8 + 2^6 + 2^4 + 2^3 + 2 + 1 =
  347$ en décimal. Enfin, $347 \div 2^3 = 43,375$.%
  \qed

  \begin{table}
    \caption{Conversion du nombre binaire $101011,011$ en décimal}
    \label{tab:ordinateurs:b_vers_10}
    \begin{minipage}[t]{0.45\linewidth}
      \subcaption{partie entière}
      \begin{tabular*}{\linewidth}{@{\extracolsep{\fill}}ccr}
        \toprule
        $i$ & $d_i$ & $x$ \\
        \midrule
        $5$ & \texthl{$1$}$01011,011$ &  $ 1$ \\
        $4$ & $1$\texthl{$0$}$1011,011$ & $ 2$ \\
        $3$ & $10$\texthl{$1$}$011,011$ & $ 5$ \\
        $2$ & $101$\texthl{$0$}$11,011$ & $10$ \\
        $1$ & $1010$\texthl{$1$}$1,011$ & $21$ \\
        $0$ & $10101$\texthl{$1$}$,011$ & $43$ \\
        \bottomrule
      \end{tabular*}
    \end{minipage}
    \hfill
    \begin{minipage}[t]{0.45\linewidth}
      \subcaption{partie fractionnaire}
      \begin{tabular*}{\linewidth}{@{\extracolsep{\fill}}ccD{.}{,}{1.3}}
        \toprule
        $i$ & $d_{-i}$ & y \\
        \midrule
        $3$ & $101011,01$\texthl{$1$}   & 0.5   \\
        $2$ & $101011,0$\texthl{$1$}$1$ & 0.75  \\
        $1$ & $101011,$\texthl{$0$}$11$ & 0.375 \\
        \bottomrule
      \end{tabular*}
    \end{minipage}
  \end{table}
\end{exemple}


\begin{exemple}
  Soit le nombre hexadécimal $\mathrm{AC}2,3\mathrm{D}8$. On peut le
  convertir en base $10$ à partir de la définition:
  \begin{align*}
    \mathrm{AC}2,3\mathrm{D}8
    &= 10 \times 16^2 + 12 \times 16 + 2 + 3 \times 16^{-1} + 13
    \times 16^{-2} + 8 \times 16^{-3} \\
    &= \nombre{2754,240234375}.
  \end{align*}
  \qed
\end{exemple}


\subsection{Conversion avec des bases générales}
\label{sec:ordinateurs:conversion:bases_generales}

Il existe de nombreuses bases de numération d'usage courant où chaque
symbole est (potentiellement) exprimé dans une base différente. On a
qu'à penser à l'heure ou à l'ensemble du système de mesure impérial.
Or, il peut s'avérer utile de savoir convertir de et vers une base
quelconque. Le matériel de cette section se retrouve dans très peu
d'ouvrages d'analyse numérique ou de statistique numérique. Pourtant,
il existe quelques applications intéressantes de la conversion de et
vers des bases générales, comme nous le verrons.

On peut généraliser la notion de nombre présentée dans les sections
précédentes à une collection de «symboles», chacun dans une base
différente. On restreint la discussion aux entiers sans perte de
généralité. On a donc
\begin{displaymath}
  x = x_{m-1}x_{m-2} \cdots x_1x_0,
\end{displaymath}
où $x_{m - 1}$ est un nombre en base $b_{m - 1}$, $x_{m - 2}$ est un
nombre en base $b_{m - 2}$, etc. Nous dirons que le nombre $x$ est
exprimé en base $[b_{m - 1}\; b_{m - 2}\; \dots\; b_0]$. On a alors
\begin{equation}
  \label{eq:ordinateurs:def_base_gen}
  x = \sum_{i = 0}^{m - 1} x_i \prod_{j = -1}^{i - 1} b_j,
\end{equation}
avec $b_{-1} = 1$.

Les algorithmes de conversion \ref{algo:ordinateurs:10_vers_b} et
\ref{algo:ordinateurs:b_vers_10} demeurent essentiellement valides
ici. Il suffit de remplacer chaque mention de $b$ par $b_i$.

\begin{exemple}
  Le jour de l'année et l'heure du jour est un «nombre» exprimé en
  base $[365\; 24\; 60\; 60]$. En utilisant directement
  l'équation~\eqref{eq:ordinateurs:def_base_gen}, le nombre de
  secondes correspondant à 1~jour, 2~heures, 33~minutes et 20~secondes
  est:
  \begin{align*}
    1 \text{ j } 2 \text{ h } 33 \text{ min } 20 \text{ sec}
    &= 1 \times (24)(60)(60) + 2 \times (60)(60) + 33 \times 60 + 20 \\
    &= \nombre{95600} \text{ secondes}.
  \end{align*}
  Si l'on fait la conversion en sens inverse, le nombre de jours,
  heures, minutes et secondes correspondant à \nombre{91492} secondes
  est, en utilisant l'\autoref{algo:ordinateurs:10_vers_b} avec la
  base $[365\; 24\; 60\; 60]$: 1~jour, 1~heure, 24~minutes et
  52~secondes (voir le \autoref{tab:ordinateurs:10_vers_generale} pour
  les calculs).
  \begin{table}
    \caption{Conversion du nombre décimal $\nombre{91492}$ dans la
      base générale $[365\; 24\; 60\; 60]$.}
    \label{tab:ordinateurs:10_vers_generale}
    \centering
    \begin{tabular}{>{$}c<{$}>{$}r<{$}>{$}r<{$}>{$}r<{$}>{$}c<{$}>{$}c<{$}}
      \toprule
      i &
      \multicolumn{1}{c}{$v$} &
      \multicolumn{1}{c}{$b_i$} &
      \lfloor v/b_i \rfloor & v \bmod b_i & x_i \\
      \midrule
      0 & \nombre{91492} &  60 & \nombre{1524} & 52 & 52 \\
      1 &  \nombre{1524} &  60 &           25  & 24 & 24 \\
      2 &            25  &  24 &            1  &  1 &  1 \\
      3 &             1  & 365 &            0  &  1 &  1 \\
      \bottomrule
    \end{tabular}
  \end{table}
  \qed
\end{exemple}

Les bases générales sont particulièrement utiles pour assigner ou
extraire les éléments d'une matrice ou d'un tableau dans un ordre non
séquentiel. Typiquement, l'index de l'élément à traiter est le
résultat d'un calcul. L'exemple suivant illustre cette idée.

\begin{exemple}
  \label{ex:ordinateurs:position_dans_matrice}
  Soit $\mathbf{A}$ une matrice $4 \times 5$ que l'on suppose remplie en
  ordre lexicographique (par ligne). Il est simple de déterminer, ici,
  que le 14{\ieme} élément est $a_{34}$. Or, on observe que la
  conversion du nombre $14 - 1 = 13$ dans la base $[4\; 5]$ donne :
  \begin{align*}
    13 \div 5 &= 2 \text{ reste } 3 \quad\Rightarrow\quad x_0 = 3 \\
     2 \div 4 &= 0 \text{ reste } 2 \quad\Rightarrow\quad x_1 = 2,
   \end{align*}
   soit le «nombre» $(2, 3)$. En additionnant $1$ à ce résultat, on
   obtient précisément la position du 14{\ieme} élément dans la
   matrice. Les opérations $-1$ et $+1$ sont rendues nécessaires par
   le fait que les lignes et les colonnes sont numérotées à partir de
   $1$, alors que les systèmes de numération débutent à $0$.%
   \qed
\end{exemple}


\section{Unités de mesure}
\label{sec:ordinateurs:unites}

Les ordinateurs que nous utilisons couramment fonctionnent en base $2$.
La plus petite quantité d'information qu'un ordinateur peut traiter
est un \emph{bit} (compression de l'anglais \emph{binary digit}). En
informatique, un bit est égal à \fbox{$0$} ou à \fbox{$1$}. Le symbole du
bit est b.

Un \emph{octet} (\emph{byte}) est un groupe de huit bits. Son symbole
est o ou B. L'octet est l'unité de mesure la plus fréquemment utilisée
en informatique, en grande partie parce que le codage d'un caractère
dans la plupart des langues occidentales requiert un octet; voir la
\autoref{sec:ordinateurs:codage}. Les termes pour de plus grandes
quantités de bits ou d'octets utilisent généralement les préfixes
usuels du système international d'unités. Par exemple:
\begin{itemize}
\item $1$ kilooctet (ko) est $2^{10} = \nombre{1 024}$ octets;
\item $1$ mégaoctet (Mo) est $2^{20} = \nombre{1 048 576}$ octets;
\item $1$ gigaoctet (Go) est $2^{30} = \nombre{1 073 741 824}$ octets.
\end{itemize}
On voit que cette pratique fort répandue entraine des distorsions par
rapport aux définitions usuelles de kilo, méga, giga, etc., et que
cette distorsion s'amplifie au fur et à mesure que l'on grimpe dans
l'échelle des tailles d'objets. Pour cette raison, on a défini les
préfixes kibi, mébi, gibi, etc., mais ceux-ci demeurent peu utilisés à
ce jour.

Dans l'industrie de l'informatique, on joue beaucoup avec les unités
pour montrer son produit sous un jour favorable. Deux exemples:
\begin{enumerate}
\item Les fournisseurs d'accès Internet expriment la vitesse de
  téléchargement en Mb/sec, alors que la taille des fichiers est
  généralement affichée en octets. Il faut donc diviser par 8 la
  vitesse annoncée pour avoir une idée plus juste du temps requis pour
  télécharger un fichier.
\item Les fabricants de disques durs divisent la capacité réelle de
  leurs disques par $10^9$ pour l'exprimer en gigaoctets. Ainsi, un
  disque dont la capacité annoncée est de $100$~Go ne peut contenir, en
  fait, que $100 \times 10^9 \div 2^{30} = 93,132$~Go de données.
  Cette confusion serait éliminée si les fabricants affichaient plutôt
  une capacité de $93,132$ gibioctets. Moins vendeur\dots
\end{enumerate}


\section{Représentation en virgule flottante}
\label{sec:ordinateurs:ieee}

Cette section décrit la manière standard de représenter les nombres
réels dans les ordinateurs d'usage courant. Il est utile de
connaitre les grandes lignes afin de comprendre pourquoi les nombres
réels n'ont pas tous une représentation exacte dans un ordinateur et
comment surviennent et se propagent les erreurs d'arrondi. L'étude du
sujet est également intéressante en soi pour constater comment les
ingénieurs et les informaticiens sont parvenus à stocker un maximum
d'information dans un espace limité.

Tel que mentionné précédemment, la capacité de stockage d'un
ordinateur, bien que vaste de nos jours, n'en demeure pas moins
limitée. Par conséquent, les nombres y sont représentés par un
ensemble de $m$ bits. Habituellement, $m$ est un multiple de $2$ et sa
valeur détermine le type de nombre. Par exemple, des définitions
usuelles sont $m = 2^4 = 16$ pour un entier, $m = 2^5 = 32$ pour un
nombre réel en simple précision (\emph{float} dans plusieurs langages
de programmation) et $m = 2^6 = 64$ pour un nombre réel en double
précision (\emph{double}).

Il existe deux grandes façons de représenter les nombres (réels) à
l'aide de $m$ bits.
\begin{description}
\item[Virgule fixe] Dans cette représentation, la position de la
  virgule dans le nombre est prédéterminée et, par conséquent, n'a pas
  besoin d'être conservée en mémoire. On réserve alors $m_e$ positions
  pour la partie entière et $m_f$ pour la partie fractionnaire (avec
  $m = m_e + m_f$). La représentation en virgule fixe est
  particulièrement utile dans les applications financières.
\item[Virgule flottante] Dans la représentation des nombres en virgule
  flottante, celle-ci peut être placée n'importe où dans le nombre.
  L'étendue de cette représentation est beaucoup plus grande que la
  virgule fixe, mais ceci au détriment de la précision puisque
  quelques bits doivent être réservés pour stocker la position de la
  virgule dans le nombre.
\end{description}
La représentation en virgule flottante est celle utilisée dans les
applications scientifiques et celle sur laquelle nous nous concentrons
dans la suite.

La représentation en virgule flottante est analogue à la notation
scientifique. Le nombre réel $x$ est entièrement défini par un bit de
signe $S$, un exposant positif $E$ et une mantisse $M$ tel que
\begin{equation}
  \label{eq:ordinateurs:def_floating-point}
  x = (-1)^S \times B^{E - e} \times M,
\end{equation}
où $B$ est la base de la représentation et $e$ est un entier
prédéterminé appelé le décalage, ou le biais, de l'exposant. Le
recours au décalage facilite les calculs internes et évite de devoir
réserver un autre bit pour le signe de l'exposant en le stockant sous
forme non signée (c'est-à-dire sous forme d'entier positif).

La norme IEEE~754 définit la manière standard de représenter les
nombres en virgule flottante dans les ordinateurs \citep[][pour une
excellente présentation]{IEEE:754,Wikipedia:IEEE754}. En premier lieu,
la norme stipule que la base dans la représentation est $B = 2$. Ceci
est implicite et n'est pas stocké où que ce soit dans l'ordinateur. En
second lieu, la norme suppose que, pour les nombres dits
\emph{normalisés}, la mantisse est toujours de la forme $M = 1,F$, où
$F$ est un entier binaire. Le bit à gauche de la virgule est appelé le
\emph{bit caché} puisqu'il est lui aussi implicite et non stocké dans
l'ordinateur.

Nous décrivons plus en détail la norme pour les nombres réels en
\emph{double précision} puisque c'est le type avec lequel R travaille
toujours\footnote{%
  \label{pg:arithmetique:entiers} Il est possible de créer des vrais
  entiers dans R en ajoutant un suffixe \code{L} à un nombre entier.
  Ainsi, \code{1L} est un nombre entier dans le sens où
  \code{is.integer(1L)} est \code{TRUE}. Cela est relativement peu
  utilisé en programmation normale.}. %
Tout d'abord, un nombre en double précision est stocké dans un mot de
$m = 64$~bits (8~octets) divisé ainsi de gauche à droite: $m_S = 1$ bit
pour le signe, $m_E = 11$ bits pour l'exposant et $m_F = 52$ bits pour
la partie fractionnaire de la mantisse. Le premier bit du mot utilisé
pour le signe est appelé le \emph{bit fort}. Voir la
\autoref{fig:ordinateurs:double} pour une représentation
schématique.

\begin{figure}
  \centering
  \begin{equation*}
    \underbrace{
      \underbrace{\fbox{\hspace{0.5pt} $S$ \hspace{0.5pt}}}_{m_S = 1}
      \hspace{1pt}
      \underbrace{\fbox{\hspace{17.5pt} $E$ \hspace{17.5pt}}}_{m_E = 11}
      \hspace{1pt}
      \underbrace{\fbox{\hspace{78pt} $F$ \hspace{78pt}}}_{m_F = 52}%
    }_{m = 64}
  \end{equation*}
  \caption{Représentation schématique d'un nombre en double précision
    dans la norme IEEE~754.}
  \label{fig:ordinateurs:double}
\end{figure}

On remarque que le bit caché confère à la mantisse une longueur de mot
effective (ou précision) de 53~bits.

Le décalage est $e = 2^{m_e - 1} - 1 = 2^{10} - 1 = \nombre{1023}$.
Avec une longueur de mot de 11~bits, les valeurs possibles de $E$ vont
de $0$ à $2^{11} - 1 = \nombre{2047}$. Cependant, les valeurs $0$ et
$\nombre{2047}$ sont réservées pour des usages spéciaux; voir le
\autoref{tab:ordinateurs:special_values}. Par conséquent, les
valeurs possibles de l'exposant (une fois décalé) pour les nombres en
double précision vont de $-\nombre{1022}$ à $\nombre{1023}$.

\begin{table}
  \caption{Valeurs spéciales dans la norme IEEE~754}
  \label{tab:ordinateurs:special_values}
  \begin{tabular}{crccc}
    \toprule
    $S$ &
    \multicolumn{1}{c}{$E$} &
    $F$ & Représentation binaire & Valeur spéciale \\
    \midrule
    $0$ & $0$ & $0$ &
      \ieee{0}{00000000000}{00 \cdots 00} & $0$ \\
    $1$ & $0$ & $0$ &
      \ieee{1}{00000000000}{00 \cdots 00} & $-0$ \\
    $0$ & $\nombre{2047}$ & $0$ &
      \ieee{0}{11111111111}{00 \cdots 00} & $+\infty$ \\
    $1$ & $\nombre{2047}$ & $0$ &
      \ieee{1}{11111111111}{00 \cdots 00} & $-\infty$ \\
    $0 \text{ ou } 1$ & $\nombre{2047}$ & $F \neq 0$ &
      \ieee{$S$}{11111111111}{\hspace{1.2em} $F$ \hspace{1.2em}} &
      \code{NaN}$^a$ \\
    \bottomrule
  \end{tabular} \\
  $^a$ \emph{Not a number}, par exemple $\frac{0}{0}$
  ou $\frac{\infty}{\infty}$.
\end{table}

\begin{exemple}
  Tel qu'expliqué à la
  \autoref{sec:ordinateurs:conversion:10_vers_b}, le nombre
  $\frac{1}{2}$ possède une représentation binaire exacte:
  \begin{align*}
    \frac{1}{2}
    &= 2^{-1} \\
    &= (-1)^0 \times 2^{\nombre{1022} - \nombre{1023}} \times 1,0.
  \end{align*}
  Puisque la représentation de l'exposant est $\nombre{1022}_{10} =
  1111111110_2$, la représentation interne de $\frac{1}{2}$ selon la
  norme IEEE~754 est
  \begin{center}
    \ieee{0}{01111111110}{00 \cdots 00}.
  \end{center}

  En revanche, le nombre $\frac{1}{10}$ n'a pas une représentation
  binaire finie. En utilisant
  l'\autoref{algo:ordinateurs:10_vers_b}, on trouve (le côté
  droit de l'égalité étant en binaire):
  \begin{align*}
    \frac{1}{10}
    &= 0,0001100110011001100110011001\dots \\
    &= 2^{-4} \times 1,1001100110011001\dots \\
    &= (-1)^0 \times 2^{\nombre{1019} - \nombre{1023}} \times
    1,1001100110011001\dots
  \end{align*}
  Or, $\nombre{1019}_{10} = 1111111011_2$, d'où la représentation
  interne finie de $\frac{1}{10}$ est
  \begin{center}
    \ieee{0}{01111111011}{1001 \cdots 1001}.
  \end{center}
  Si l'on reconvertit ce nombre en décimal, on obtient
  \begin{equation*}
    2^{-4} \times
    \left(
      1 + \sum_{k = 0}^{12} (2^{-4k - 1} + 2^{-4k - 4})
    \right),
  \end{equation*}
  un nombre près de, mais pas exactement égal à, $\frac{1}{10}$ (le
  programme de calcul en multiprécision \code{bc} donne
  $0,09999999999999999166$). Dès lors, la multiplication de ce nombre
  par $10$ ne donnera pas $1$. Voilà qui justifie le principe de
  programmation énoncé à la page \pageref{programming_principle}.%
  \qed
\end{exemple}

Les principales caractéristiques des nombres en double précision sont
les suivantes.
\begin{enumerate}
\item Soit $x_{\text{max}}$ le plus grand nombre représentable. Parce
  que l'exposant $E = \nombre{2047}$ est réservé, on a
  \begin{align*}
    x_{\text{max}}
    &= \ieee{0}{11111111110}{11 \cdots 11} \\
    &= (-1)^0 \times 2^{\nombre{1023}} \times 1,11\cdots11 \\
    &= 2^{\nombre{1023}} \times (2 - 2^{-52}) \\
    &= \nombre{1,797693} \times 10^{308}.
  \end{align*}
\item Soit $x_{\text{min}}$ le plus petit nombre normalisé
  représentable. Parce que l'exposant $E = 0$ est réservé, on a
  \begin{align*}
    x_{\text{min}}
    &= \ieee{0}{00000000001}{00 \cdots 00} \\
    &= (-1)^0 \times 2^{\nombre{-1022}} \times 1,00\cdots00 \\
    &= 2^{\nombre{-1022}} \\
    &= \nombre{2,225074} \times 10^{-308}.
  \end{align*}
  Afin de rendre la transition vers $0$ moins abrupte, la norme
  IEEE~754 définit également des nombres \emph{dénormalisés}. Ceux-ci
  sont identifiés par $E = 0$ et une partie fractionnaire $F$ non
  nulle. Cependant, par définition, les nombres dénormalisés ont $E -
  e = -\nombre{1022}$ et leur bit caché est $0$. Par conséquent, le
  plus petit nombre dénormalisé est stocké sous la forme
  \begin{equation*}
    \ieee{0}{00000000000}{00 \cdots 01}
  \end{equation*}
  et sa valeur est
  \begin{align*}
    x_{\text{min}}
    &= (-1)^0 \times 2^{\nombre{-1022}} \times 0,00\cdots01 \\
    &= 2^{\nombre{-1022}} \times 2^{-52} \\
    &= 2^{-\nombre{1074}} \\
    &= \nombre{4,940656} \times 10^{-324}.
  \end{align*}
\item On a la même étendue pour les nombres négatifs, soit
  \begin{gather*}
    [\nombre{-1,797693} \times 10^{308},\,
     \nombre{-2,225074} \times 10^{-308}] \\
    \intertext{ou}
    [\nombre{-1,797693} \times 10^{308},\,
     \nombre{-4,940656} \times 10^{-324}].
  \end{gather*}
  en considérant les nombres dénormalisés.
\item Soit $\varepsilon$ la plus petite valeur tel que $1 +
  \varepsilon \neq 1$ dans la représentation en virgule flottante.
  Cette valeur est appelée l'\emph{epsilon de la machine} ou la
  \emph{précision de la machine}. Or, puisque
  \begin{equation*}
    1 = (-1)^0 \times 2^0 \times 1,00\cdots00,
  \end{equation*}
  le nombre suivant est
  \begin{equation*}
    (-1)^0 \times 2^0 \times 1,00\cdots01.
  \end{equation*}
  Par conséquent, on a $\varepsilon = 2^{-52} = \nombre{2,220446}
  \times 10^{-16}$.
\item Tout nombre $x$ représente en fait un intervalle de
  $\mathbb{R}$. Par exemple, tout nombre dans l'intervalle $[1, 1 +
  \varepsilon)$ est représenté par le nombre $1$ dans l'ordinateur.
\item On a un ensemble fini de nombres pour représenter $\mathbb{R}$.
  Or, cet ensemble est plus dense près de $0$ que pour les grandes
  valeurs. En effet, le nombre suivant $x_{\text{min}}$ est
  \begin{align*}
    x_{\text{min}}^+
    &= (1 + \varepsilon) \times 2^{-\nombre{1022}} \\
    &= x_{\text{min}} + \varepsilon \times 2^{-\nombre{1022}} \\
    &= x_{\text{min}} + 2^{-\nombre{1074}}, \\
    \intertext{alors que le nombre précédant $x_{\text{max}}$ est}
    x_{\text{max}}^-
    &= (2 - 2^{-52} - \varepsilon) \times 2^{\nombre{1023}} \\
    &= x_{\text{max}} - \varepsilon \times 2^{\nombre{1023}} \\
    &= x_{\text{max}} - 2^{971}.
  \end{align*}
  L'écart entre les deux plus petits nombres représentables est donc de
  $2^{-\nombre{1024}} \approx 10^{-324}$, alors que celui entre les deux plus
  grands est de $2^{971} \approx 10^{292}$!
\end{enumerate}

Tout calcul impliquant un nombre $x > x_{\text{max}}$ ($x <
-x_{\text{max}}$) entraine un \emph{dépassement de capacité}.
Habituellement, cela entraine l'arrêt immédiat des calculs et un
résultat de $+\infty$ ($-\infty$). À l'autre bout du spectre, un
calcul impliquant un nombre $x < x_{\text{min}}$ entraine un
\emph{soupassement de capacité} et le résultat est habituellement
considéré égal à $0$.

R conserve dans une liste nommée \code{.Machine} les
valeurs mentionnées ci-dessus --- ainsi que plusieurs autres --- pour
l'architecture de l'ordinateur courant. Par exemple, on confirme les
valeurs de $\varepsilon_m$, $x_{\text{min}}$, $x_{\text{max}}$, $B$,
$m_f$ et $m_e$, dans l'ordre, pour l'architecture x86:
\begin{Schunk}
\begin{Sinput}
> .Machine[c(1, 3:6, 11)]
\end{Sinput}
\begin{Soutput}
$double.eps
[1] 2.220446e-16

$double.xmin
[1] 2.225074e-308

$double.xmax
[1] 1.797693e+308

$double.base
[1] 2

$double.digits
[1] 53

$double.exponent
[1] 11
\end{Soutput}
\end{Schunk}


\section{Éléments d'arithmétique en virgule flottante}
\label{sec:ordinateurs:arithmetique}

La section précédente expliquait pourquoi les nombres stockés dans un
ordinateur ne sont pas toujours ceux que l'on croit --- ou que l'on
voudrait. Puisque l'ordinateur ne peut représenter tous les nombres
réels, toute opération arithmétique avec des nombres en virgule
flottante implique une erreur d'arrondi ou de troncature (selon
l'architecture de l'ordinateur) dont il importe de tenir compte lors
de la mise en oeuvre de certains algorithmes. Cette section présente
quelques grands principes d'arithmétique en virgule flottante ainsi
que de bons usages pour minimiser les erreurs d'arrondi. Consulter les
ouvrages
\cite{Monahan:numstat:2001,Burden:numerical:2011,Knuth:ACP:vol2:1997},
entre autres, pour une discussion plus complète de ce vaste sujet.

Aux fins de cette section, on note $\fl(x)$ la représentation en
virgule flottante du nombre nombre $x$ et l'on définit la
représentation simplifiée
\begin{equation}
  \label{eq:ordinateurs:fl(x)}
  \fl(x) = (-1)^S \times 10^E \times 0,F,
\end{equation}
où $F$ compte cinq chiffres significatifs, dont le dernier est arrondi.
Le \autoref{tab:arithmetic:simplified} fournit quelques exemples.

\begin{table}
  \caption{Représentation en virgule flottante simplifiée}
  \label{tab:arithmetic:simplified}
  \centering
  \begin{tabular}{r@{,}lr@{,}l}
    \toprule
    \multicolumn{2}{c}{$x$} &
    \multicolumn{2}{c}{$\fl(x)$} \\
    \midrule
    $2$&$5$       & $0$&$25000 \times 10^1$ \\
    $-42$&$182$  & $-0$&$42182 \times 10^2$ \\
    $0$&$214356$ & $0$&$21436 \times 10^0$ \\
    \bottomrule
  \end{tabular}
\end{table}

\begin{rem}
  Dans la norme IEEE~754, les règles d'arrondi de base sont:
  \begin{enumerate}
  \item arrondir à la valeur la plus près ($0,14$ devient $0,1$ et
    $\nombre{0,16}$ devient $0,2$);
  \item arrondir un nombre exactement à mi-chemin au nombre avec un
    dernier chiffre significatif pair ou nul ($0,05$ devient $0,0$
    alors que $\nombre{0,15}$ devient $0,2$).
  \end{enumerate}
\end{rem}


\subsection{Erreurs d'arrondi ou de troncature}
\label{sec:ordinateurs:arithmetique:erreurs}

Lors de l'addition et de la soustraction de nombres en virgule
flottante, on rend les exposants égaux en déplaçant les bits de la
mantisse du plus petit nombre vers la droite. Il en résulte une perte
de bits significatifs et donc une \emph{erreur d'arrondi}. Dans les
cas extrêmes où les deux opérandes sont de grandeur très différente,
le plus petit opérande devient nul suite à la perte de tous ses bits
significatifs.

La situation pour la multiplication et la division est quelque peu
différente, mais la source d'erreur d'arrondi demeure la même.

À toute fin pratique, tout calcul fait naitre de l'erreur d'arrondi et
celle-ci augmente avec le nombre d'opérations. Les quelques principes
de programmation ci-dessous, lorsque suivis par le programmeur prudent
et consciencieux, permettent d'atténuer l'impact de l'erreur
d'arrondi.

\begin{enumerate}
\item L'addition et la soustraction en virgule flottante ne sont pas
  associatives. Additionner les nombres en ordre croissant de grandeur
  afin d'accumuler des bits significatifs.
\item Éviter de soustraire un petit nombre d'un grand, ou alors le
  faire le plus tard possible dans la chaine des calculs.
\item Pour calculer une somme alternée, additionner tous les termes
  positifs et tous les termes négatifs, puis faire la soustraction.
\item Multiplier et diviser des nombres d'un même ordre de grandeur.
  Si $x$ et $y$ sont presque égaux, le calcul $x/y$ sera plus précis
  en virgule flottante que $y^{-1} x$.
\end{enumerate}

Les exemples ci-dessous illustrent ces principes.

\begin{exemple}
  Soit $x = 7$, $y = 4$ et $z = \nombre{100000}$. Dans la
  représentation simplifiée \eqref{eq:ordinateurs:fl(x)}, on a $\fl(x)
  = 0,70000 \times 10^1$, $\fl(y) = 0,40000 \times 10^1$ et $\fl(z) =
  0,10000 \times 10^6$. Or, $x + y + z = \nombre{100011}$ et
  \begin{align*}
    [\fl(x) + \fl(y)] + \fl(z)
    &= (0,70000 \times 10^1 + 0,40000 \times 10^1)
    + 0,10000  \times 10^6 \\
    &= 0,11000 \times 10^2 + 0,10000 \times 10^6 \\
    &= 0,00001 \times 10^6 + 0,10000 \times 10^6 \\
    &= 0,10001 \times 10^6, \\
    \intertext{soit un résultat raisonnablement précis. Cependant,}
    \fl(x) + [\fl(y) + \fl(z)]
    &= 0,70000 \times 10^1
    + (0,00000 \times 10^6 + 0,10000 \times 10^6) \\
    &= 0,00000 \times 10^6 + 0,10000 \times 10^6 \\
    &= 0,10000 \times 10^6.
  \end{align*}
  En effectuant les opérations dans un mauvais ordre, on obtient $x +
  y + z = z$ même si $x \neq 0$ et $y \neq 0$. %
  \qed
\end{exemple}

\begin{exemple}
  Soit $x = 7$, $y = \nombre{100006}$ et $z = \nombre{100002}$. On a
  $z - y - x = -11$. Or,
  \begin{align*}
    \fl(z) - [\fl(y) + \fl(x)]
    &= 0,10000 \times 10^6
    - (0,10000 \times 10^6 + 0,00000 \times 10^6) \\
    &= 0,00000 \times 10^0,
    \intertext{alors que}
    [\fl(z) - \fl(y)] - \fl(x)
    &= (0,10000 \times 10^6 - 0,10000 \times 10^6) -
    0,70000 \times 10^1 \\
    &= 0,00000 \times 10^1 - 0,70000 \times 10^1 \\
    &= -0,70000 \times 10^1.
  \end{align*}
  \qed
\end{exemple}

L'exemple suivant est adapté de \cite{Monahan:numstat:2001}.

\begin{exemple}
  L'évaluation numérique de probabilités loin dans les queues d'une
  fonction de répartition peut s'avérer imprécise selon la technique
  employée. Par exemple, la fonction de répartition de la distribution
  logistique est
  \begin{equation*}
    F(x) = (1 + e^{-x})^{-1}.
  \end{equation*}
  La vraie valeur de $\operatorname{Pr}[X > 6]$ est $1 - F(6) = 1 - (1
  + e^{-6})^{-1} = \nombre{0,002472623}$. L'évaluation de cette
  probabilité dans notre représentation en virgule flottante avec la
  formule ci-dessus est
  \begin{align*}
    1 - [1 \div (1 + \fl(e^{-6}))]
    &= 1 - [1 \div (1 + 0,24788 \times 10^{-2})] \\
    &= 1 - [0,10000 \times 10^1 \div 0,10025 \times 10^1)] \\
    &= 1 - 0,99751 \times 10^0 \\
    &= 0,10000 \times 10^1 - 0,09975 \times 10^1 \\
    &= 0,25000 \times 10^{-2}.
  \end{align*}
  (Nous n'avons pas écrit les entiers en virgule flottante ci-dessus
  pour alléger la notation.) Toutefois, si l'on utilise plutôt la
  formule équivalente
  \begin{align*}
    1 - F(6)
    &= \frac{e^{-6}}{1 + e^{-6}} \\
    &= \frac{1}{1 + e^6}
  \end{align*}
  dans laquelle l'opération de soustraction entre deux nombres presque
  égaux est déjà effectuée, on obtient le résultat bien plus précis
  \begin{align*}
    1 \div (1 + \fl(e^6))
    &= 1 \div (1 + 0,40343 \times 10^3)) \\
    &= 1 \div (0,00100 \times 10^3 + 0,40343 \times 10^3) \\
    &= 1 \div 0,40443 \times 10^3 \\
    &= 0,24726 \times 10^{-2}.
  \end{align*}
  \qed
\end{exemple}

Les deux principes ci-dessous permettent d'éviter des dépassements ou
des soupassements de capacité et d'améliorer la précision des calculs.

\begin{enumerate}
\item Chercher des formules mathématiques équivalentes évitant de
  devoir traiter des très grands ou des très petits nombres.
\item Travailler en échelle logarithmique. Par exemple, le produit de
  deux grands nombres $x$ et $y$ dépassera la capacité plus tard et
  demeurera précis plus longtemps s'il est calculé sous la forme
  $e^{\log x + \log y}$.
\end{enumerate}

\begin{exemple}
  Soit $X_1, \dots, X_n$ un échantillon aléatoire tiré d'une
  distribution de Pareto translatée, dont la fonction de répartition est
  \begin{equation*}
    F(x; \mu, \alpha) = 1 -
    \left(
      \frac{\mu}{x}
    \right)^{\alpha}, \quad x > \mu.
  \end{equation*}
  On peut démontrer que l'estimateur du maximum de vraisemblance de
  $\alpha$ est
  \begin{equation*}
    \hat{\alpha} = \frac{n}{\ln (X_1 \cdots X_n/X_{(1)}^n)},
  \end{equation*}
  où $X_{(1)} = \min (X_1, \dots, X_n)$. Soit \code{x} un objet R
  contenant un échantillon de $\nombre{1000}$ valeurs d'une distribution
  Pareto translatée de moyenne $\nombre{5000}$ (le contenu de cet objet
  n'est pas affiché ici pour des raisons évidentes). Le calcul de
  l'estimateur $\hat{\alpha}$ directement par la formule entraine
  rapidement un dépassement de capacité, tant lors du produit $X_1
  \cdots X_n$ que lors de l'opération $X_{(1)}^n$:
\begin{Schunk}
\begin{Sinput}
> prod(x)
\end{Sinput}
\begin{Soutput}
[1] Inf
\end{Soutput}
\begin{Sinput}
> min(x)^length(x)
\end{Sinput}
\begin{Soutput}
[1] Inf
\end{Soutput}
\end{Schunk}
  Le résultat est donc \code{NaN}:
\begin{Schunk}
\begin{Sinput}
> length(x)/log(prod(x)/min(x)^length(x))
\end{Sinput}
\begin{Soutput}
[1] NaN
\end{Soutput}
\end{Schunk}
  Selon la grandeur des données dans l'échantillon, la formule
  équivalente
  \begin{displaymath}
    \hat{\alpha} = \frac{n}{\ln \prod_{i = 1}^n X_i/X_{(1)}}
  \end{displaymath}
  peut éviter le dépassement de capacité. Elle n'est toutefois d'aucun
  secours dans le présent exemple:
\begin{Schunk}
\begin{Sinput}
> length(x)/log(prod(x/min(x)))
\end{Sinput}
\begin{Soutput}
[1] 0
\end{Soutput}
\end{Schunk}
  On remarquera de plus que cette approche nécessite un grand nombre
  de multiplications (voir la
  \autoref{sec:ordinateurs:arithmetique:cout}), en plus d'ouvrir
  la porte à des erreurs d'arrondi.

  Pour obtenir une réponse on utilisera plutôt une autre formule
  algébriquement équivalente:
  \begin{displaymath}
    \hat{\alpha} = \frac{n}{\sum_{i=1}^n \ln X_i - n \ln X_{(1)}}.
  \end{displaymath}
  On obtient alors
\begin{Schunk}
\begin{Sinput}
> length(x)/(sum(log(x)) - length(x) * log(min(x)))
\end{Sinput}
\begin{Soutput}
[1] 1.405529
\end{Soutput}
\end{Schunk}
  Cet exemple illustre combien des calculs \emph{algébriquement}
  équivalents ne sont pas nécessairement \emph{numériquement}
  équivalents. %
  \qed
\end{exemple}


\subsection{Cout des opérations}
\label{sec:ordinateurs:arithmetique:cout}

Les ordinateurs modernes disposent d'une unité de calcul en virgule
flottante (FPU) intégrée au processeur. Cette unité est évidemment
très optimisée et, par conséquent, elle accélère beaucoup le calcul en
virgule flottante. Néanmoins, certaines opérations sont plus couteuses
à réaliser que d'autres en termes de temps de calcul. À titre
indicatif, on trouve au \autoref{tab:ordinateurs:cout} le cout
relatif approximatif de quelques opérations en virgule flottante.
\begin{table}
  \centering
  \caption{Cout relatif de quelques opérations en virgule flottante}
  \label{tab:ordinateurs:cout}
  \begin{tabular}{lr}
    \toprule
    Opération arithmétique & Cout relatif \\
    \midrule
    Addition et soustraction & $1,0$ \\
    Multiplication           & $1,3$ \\
    Division                 & $3,0$ \\
    Racine carrée            & $4,0$ \\
    Logarithme               & $15,4$ \\
    \bottomrule
  \end{tabular}
\end{table}

À titre d'exemple, considérons le calcul d'une simple moyenne
arithmétique
\begin{equation*}
  \bar{x} = \frac{1}{n} \sum_{i = 1}^n x_i.
\end{equation*}
Si l'on effectue le calcul tel qu'écrit ci-dessus, cela requiert $n -
1$ additions et une division. En revanche, le calcul équivalent
\begin{equation*}
  \bar{x} = \sum_{i = 1}^n \frac{x_i}{n},
\end{equation*}
requiert $n - 1$ divisions et $n - 1$ additions. Pour $n$ grand
utiliser la première approche plutôt que la seconde fera une
différence.


\section{Codage de caractères}
\label{sec:ordinateurs:codage}

Pendant que l'on discute de la représentation interne des nombres dans
un ordinateur, on peut toucher un mot de la représentation interne, ou
le codage, des caractères. Ce sujet demeure une cible mouvante puisque
de nouveaux standards apparaissent encore après de nombreuses années
de systèmes incompatibles et basés sur la langue anglaise.

Peu importe le système retenu, les caractères doivent être codés en
binaire dans l'ordinateur. La partie la plus difficile consiste à
créer un système standard permettant aux ordinateurs et autres
appareils numériques de communiquer entre eux. Le premier standard
d'usage courant fut le Code américain normalisé pour l'échange
d'information, mieux connu sous son acronyme ASCII \citep{ASCII}. La
norme ASCII définit des codes numériques pour 128 caractères, soit 95
affichables (lettres, chiffres, symboles divers et l'espace) et 33 non
affichables (essentiellement des caractères de contrôle tels que saut
de ligne, retour de chariot ou espacement arrière).

À titre d'exemple, les lettres majuscules A--Z occupent les cases
$65$--$90$ ($1000001$--$1011010$ en binaire) alors que les lettres
minuscules a--z occupent les cases $97$--$122$ ($1100001$--$1101010$
en binaire). On constate que les versions majuscule et minuscule d'une
même lettre ne diffèrent, dans leur représentation binaire, que par
leur second bit le plus significatif. Le changement de casse d'une
lettre ou d'un mot est donc une opération très simple et rapide.

La représentation ASCII ne requiert en soi que sept bits. Néanmoins,
on a rapidement codé les caractères sur un octet (huit bits) puisqu'il
s'agit du type de donnée natif des ordinateurs depuis les années 1970.
L'ajout d'un bit a créé de l'espace pour 128 caractères additionnels
(cases 128--255). Une myriade de systèmes de codage différents sont
alors apparus pour supporter les caractères des langues autres que
l'anglais (les caractères accentués, par exemple) ainsi que d'autres
symboles graphiques. La norme ISO~8859-1, ou Latin~1
\citep{ISO:8859-1}, a fini par s'imposer comme l'un des standards les
plus répandus. Ces listes de codes fixes se révèlent toutefois
problématiques lors de l'apparition d'un nouveau symbole. Par exemple,
pour faire de la place pour le symbole de l'euro à la fin des années
1990, il a fallu retirer un symbole de ISO~8859-1. Avec quelques
autres changements, la nouvelle liste de code est devenue ISO~8859-15.
De plus, comment doit-on traiter les langues CJC (chinois, japonais,
coréen) qui comptent des milliers de symboles différents?

Depuis le début des années 1990, la mondialisation de l'informatique a
suscité un effort concerté de création d'un système de codage standard
couvrant la presque totalité des systèmes d'écriture du monde. Le
système devait aussi permettre la composition de textes en plusieurs
langues, par exemple en français et dans une écriture de droite à
gauche comme l'hébreu ou l'arabe. Le standard ainsi créé est Unicode
\citep{Unicode:5.0}. Le plus populaire système de codage capable de
représenter l'ensemble des caractères Unicode est \emph{Unicode
  Transformation Format} 8~bits, ou UTF-8 \citep[section
3.9]{Unicode:5.0}. Dans l'UTF-8, chaque caractère est codé sur une
suite d'un à quatre octets et les premiers 128 caractères sont
identiques à la norme ASCII. L'UTF-8 est le système de codage par
défaut dans macOS et les plus récentes distributions GNU/Linux.

Le système R supporte les caractères multi-octets de manière assez
exhaustive. Sans doute aidés en cela par le fait qu'il s'agit d'un
projet international, les développeurs de R ont mis beaucoup d'effort
pour assurer l'internationalisation et la localisation du logiciel;
voir \cite{Ripley:Rnews:2005a}.

\bibliography{exercices}  % production de la bibliographie

\end{document}