Como Converter string em Caixa Baixa em C++
Neste artigo, introduziremos como converter a string para a minúscula em C++.
A primeira coisa a se perguntar antes de fazer a conversão de string em C++ é que tipo de codificação tem minha string de entrada? Porque se você utilizar std::lower
com caracteres de codificação multi-byte, então você definitivamente obterá o código buggy.
Mesmo que a seguinte função pareça uma boa implementação da conversão em minúsculas std::string
, mas ela não converte todos os caracteres para minúsculas porque sua codificação é UTF-8
.
#include <algorithm>
#include <iostream>
std::string toLower(std::string s) {
std::transform(s.begin(), s.end(), s.begin(),
[](unsigned char c) { return std::tolower(c); });
return s;
}
int main() {
std::string string1 = u8"ÅSH to LoWer WÅN";
std::cout << "input string: " << string1 << std::endl
<< "output string: " << toLower(string1) << std::endl;
return 0;
}
O código acima funciona bem para as strings ASCII e algumas outras strings não ASCII também, mas uma vez que se dá uma entrada um pouco incomum, digamos alguns símbolos em latim, a saída não seria satisfatória.
Resultado:
input string: ÅSH to LoWer WÅN
output string: Åsh to lower wÅn
É incorreto, pois deveria ter baixado o símbolo Å
para å
. Então, como podemos resolver este problema para obter a saída correta?
A melhor maneira portátil de fazer isso é utilizar a biblioteca ICU
(International Components for Unicode), que é suficientemente madura para oferecer estabilidade, amplamente acessível, e manterá seu código em todas as plataformas.
Só precisamos incluir os seguintes cabeçalhos em nosso arquivo fonte. Há uma boa chance de que estas bibliotecas já estejam incluídas e disponíveis em sua plataforma, portanto, as amostras de código devem funcionar bem. Mas se você obtiver erros IDE/tempo de compilação, consulte as instruções para baixar a biblioteca no site de documentação da ICU.
#include <unicode/locid.h>
#include <unicode/unistr.h>
#include <unicode/ustream.h>
Agora que incluímos cabeçalhos, podemos escrever std::string
em código de conversão em letras minúsculas, como segue:
#include <unicode/locid.h>
#include <unicode/unistr.h>
#include <unicode/ustream.h>
#include <iostream>
int main() {
std::string string1 = u8"ÅSH to LoWer WÅN";
icu::UnicodeString unicodeString(string1.c_str());
std::cout << "input string: " << string1 << std::endl
<< "output string: " << unicodeString.toLower() << std::endl;
return 0;
}
Note que devemos compilar este código com as seguintes bandeiras de compilação para incluir as dependências da biblioteca da ICU
:
g++ sample_code.cpp -licuio -licuuc -o sample_code
Executar o código, e obtemos a saída correta como esperado:
input string: ÅSH to LoWer WÅN
output string: åsh to lower wån
A mesma função pode processar algum idioma diferente que normalmente não esperamos como entrada do usuário, e também podemos especificar explicitamente o locale como parâmetro para a função toLower
:
#include <iostream>
#include <unicode/unistr.h>
#include <unicode/ustream.h>
#include <unicode/locid.h>
int main() {
std::string string2 = "Κάδμῳ ἀπιϰόμενοι.. Ελληνας ϰαὶ δὴ ϰαὶ γράμματα, οὐϰ ἐόντα πρὶν Ελλησι";
icu::UnicodeString unicodeString2(string2.c_str());
std::cout << unicodeString2.toLower("el_GR") << std::endl;
return 0;
}
Founder of DelftStack.com. Jinku has worked in the robotics and automotive industries for over 8 years. He sharpened his coding skills when he needed to do the automatic testing, data collection from remote servers and report creation from the endurance test. He is from an electrical/electronics engineering background but has expanded his interest to embedded electronics, embedded programming and front-/back-end programming.
LinkedIn Facebook