Converti stringa in minuscolo in C++
In questo articolo, introdurremo come convertire una stringa in minuscolo in C++.
La prima cosa da chiedersi prima di eseguire la conversione della stringa in C++ è che tipo di codifica ha la mia stringa di input? Perché se userete std::lower
con caratteri di codifica multibyte, allora otterrete sicuramente codice difettoso.
Anche se la seguente funzione sembra un’implementazione accurata della conversione in minuscolo std::string
, ma non converte tutti i caratteri in minuscolo perché la sua codifica è UTF-8
.
#include <algorithm>
#include <iostream>
std::string toLower(std::string s) {
std::transform(s.begin(), s.end(), s.begin(),
[](unsigned char c) { return std::tolower(c); });
return s;
}
int main() {
std::string string1 = u8"ÅSH to LoWer WÅN";
std::cout << "input string: " << string1 << std::endl
<< "output string: " << toLower(string1) << std::endl;
return 0;
}
Il codice sopra funziona bene per le stringhe ASCII e anche per alcune altre stringhe non ASCII, ma una volta che gli dai un input un po’ insolito, diciamo alcuni simboli latini, l’output non sarebbe soddisfacente.
Produzione:
input string: ÅSH to LoWer WÅN
output string: Åsh to lower wÅn
Non è corretto poiché avrebbe dovuto abbassare il simbolo Å
su å
. Quindi, come possiamo risolvere questo problema per ottenere l’output corretto?
Il miglior modo portatile per farlo è usare la libreria ICU
(International Components for Unicode), che è abbastanza matura da offrire stabilità, ampiamente accessibile e manterrà il tuo codice multipiattaforma.
Abbiamo solo bisogno di includere le seguenti intestazioni nel nostro file sorgente. Ci sono buone probabilità che queste librerie siano già incluse e disponibili sulla tua piattaforma, quindi gli esempi di codice dovrebbero funzionare bene. Ma se si ottengono errori IDE / in fase di compilazione, vedere le istruzioni per scaricare la libreria nel sito Web della documentazione ICU.
#include <unicode/locid.h>
#include <unicode/unistr.h>
#include <unicode/ustream.h>
Ora che abbiamo incluso le intestazioni, possiamo scrivere std::string
nel codice di conversione in minuscolo come segue:
#include <unicode/locid.h>
#include <unicode/unistr.h>
#include <unicode/ustream.h>
#include <iostream>
int main() {
std::string string1 = u8"ÅSH to LoWer WÅN";
icu::UnicodeString unicodeString(string1.c_str());
std::cout << "input string: " << string1 << std::endl
<< "output string: " << unicodeString.toLower() << std::endl;
return 0;
}
Nota che dovremmo compilare questo codice con i seguenti flag del compilatore per includere le dipendenze della libreria ICU:
g++ sample_code.cpp -licuio -licuuc -o sample_code
Esegui il codice e otteniamo l’output corretto come previsto:
input string: ÅSH to LoWer WÅN
output string: åsh to lower wån
La stessa funzione può elaborare una lingua diversa che di solito non ci aspettiamo come input dell’utente, e possiamo anche specificare esplicitamente locale come parametro della funzione toLower
:
#include <iostream>
#include <unicode/unistr.h>
#include <unicode/ustream.h>
#include <unicode/locid.h>
int main() {
std::string string2 = "Κάδμῳ ἀπιϰόμενοι.. Ελληνας ϰαὶ δὴ ϰαὶ γράμματα, οὐϰ ἐόντα πρὶν Ελλησι";
icu::UnicodeString unicodeString2(string2.c_str());
std::cout << unicodeString2.toLower("el_GR") << std::endl;
return 0;
}
Founder of DelftStack.com. Jinku has worked in the robotics and automotive industries for over 8 years. He sharpened his coding skills when he needed to do the automatic testing, data collection from remote servers and report creation from the endurance test. He is from an electrical/electronics engineering background but has expanded his interest to embedded electronics, embedded programming and front-/back-end programming.
LinkedIn Facebook