主页»PHP»PHP 与 UTF-8的最佳实践

PHP 与 UTF-8的最佳实践

来历:虞斗胆 发布时刻:2016-12-13 阅览次数:

  《PHP中的字符串、编码、UTF-8》一文中描绘了一些列的基础常识,比较单调,现在来说点有用的——PHP 字符串处理的最佳实践,本文是“PHP、字符串、编码、UTF-8”相关常识的第二部分。先说定论——在 PHP 中的各个方面运用 UTF-8编码

  PHP 言语层面是不支持 Unicode字符集的,可是能够经过 UTF-8 编码能处理大部分问题。

  最佳实践便是清晰知道输入编码(不知道就检测),内部一致转换为 UTF-8 编码,输出编码也一致是 UTF-8编码。

  PHP 层面怎样处理 UTF-8

  当操作 Unicode 字符集的时分,请有必要装置 mbstring 扩展,并运用相应的函数替代原生的字符串函数。举个比方,一个文件编码为 UTF-8 的 PHP 代码,假设运用 strlen() 函数是过错的,请运用 mb_strlen() 函数替代。

  mbstring 扩展大部分的函数都需求根据一个编码(内部编码)来处理,请有必要一致运用 UTF-8 编码,这个大部分能够在 PHP.INI 中装备。

  从 PHP 5.6 开端,default_charset 装备能够替换 mbstring.http_input,mbstring.http_output 。

  别的一个重要的装备便是 mbstring.language,这个默认值是 Neutral(UTF-8)。

  留意文件编码和 mbstring 扩展的内部编码不是同一个概念。

  归纳的说来:

  • PHP.INI 中涉及到 mbstring 扩展的部分尽量运用 UTF-8。
  • 请用 mbstring 扩展函数替代原生字符串操作函数。
  • 在运用相关函数的时分,请有必要了解你操作的字符的编码是什么,在运用对应函数的时分,显现的写上 UTF-8 编码参数,比方 htmlentities() 函数的第三个参数显现写上 UTF-8。

  文件 IO 操作 怎样处理 UTF-8

  这儿举个比方,假设你要翻开一个文件,可是不知道文件内容是什么编码的,那么怎样处理呢?

  最佳实践便是,在翻开的时分一致转换成 UTF-8,修正内容后就再转回本来的编码并保存到文件。看代码把:

if ( mb_internal_encoding()!="UTF-8") {
        mb_internal_encoding("UTF-8");
}

$file = "file.txt"; //一个编码为gbk的中文文件
$str= file_get_contents($file);
//不论来历是什么编码,一致显现的时分转换为 UTF-8
 if (mb_check_encoding($str,"GBK")) 
    $str =  mb_convert_encoding($str,"UTF-8",“GBK”); 

$str ="修正内容";
$str =  mb_convert_encoding($str,$srcbm,"UTF-8"); //原样转回去
file_put_contents($file,$str);

  Mysql 和 UTF-8 的最佳实践

  这个相对简略,首要保证你的 Mysql 都是 UTF-8。然后 Mysql 客户端衔接的时分也坚持 UTF-8,详细到 PHP 中,便是 imysql 或许 PDO 扩展衔接 Mysql 的时分都设置 UTF-8 作为衔接编码,二边坚持一致,一般就不会遇到问题。

  有爱好能够看看这篇文章

  浏览器和 UTF-8 的最佳实践

  这个也比较简略,便是你的输出内容假设是网页,那么你的字符串处理输出最总请坚持为 UTF-8 ;一起 PHP.INI 中也清晰设定 default_charset 为 UTF-8;HTML 的 Meta Tag 也清晰标识为 UTF-8。

  现在万事大吉了吗,并没有,尽管服务器和浏览器让用户运用 UTF-8 编码,可是用户的行为并没有束缚性,他或许输入的是其他编码的字符,或许上传的文件名是其他编码的字符,那么怎样办呢?能够经过 mb_http_input() 和 mb_check_encoding() 函数来检测用户的编码,然后内部转换为 UTF-8。保证在任何一个层面,终究处理的是 UTF-8 编码。换句话说,需求手法能够知晓你的输入是什么编码的,处理完成后操控输出的编码是 UTF-8。

  不主张运用 mbstring.encoding_translation 指令 和 mb_detect_encoding() 函数。摧残我半响。

  操作体系和 UTF-8 的最佳实践

  因为操作体系的原因,PHP 处理 Unicode 文件名的时分会有不同的处理机制。

  在 Linux 中,文件名始终是 UTF-8 编码的,而在中文 Windows 环境下,文件名始终是 GBK 编码的,记住这一点就能够了。

  经过比方阐明下:

//指令行程序函数,运转在中文版 Windows 10 操作体系 ,文件编码为 UTF-8

function filenameexample() {
    $filename = "测验.txt" ;
    $gbk_filename = iconv("UTF-8","GBK",$filename);
    file_put_contents($gbk_filename, "测验");
    echo file_get_contents($gbk_filename);
}

function scandirexample() {
    $arr = scandir("./tmp");
    foreach ($arr as $v) {
        if ($v == "." || $v =="..")
            continue ;
        $filename = iconv( "GBK","UTF-8",$v ) ;
        $content = file_get_contents("./tmp/" . $v );
    }
}

  假设不想写写兼容 Windows 和 linux 的程序,能够对文件名进行 urlencode 编码,比方:

 function urlencodeexample() {
    $filename = "测验2.txt" ;
    $urlencodefilename = urlencode($filename) ;
    file_put_contents($urlencodefilename, "测验");
    echo file_get_contents($urlencodefilename);
 }

  在用 PHP 经过 header() 函数下载文件的时分,也要考虑浏览器和操作体系(大部分人运用的是 Windows),关于 Chrome 来说,输出的文件名编码能够是 UTF-8,Chrome 会主动将文件名转换为 GBK 编码。

  而关于低版本的 IE 来说,它承继了操作体系的环境,所以下载文件名假设是中文有必要转码为 UTF-8 编码,不然下载的时分用户看到的是乱码文件名。经过代码来阐明:

$agent=$_SERVER["HTTP_USER_AGENT"];
if(strpos($agent,'MSIE')!==false  {
    $filename = iconv("UTF-8","GBK","附件.txt");
    header("Content-Disposition: attachment; filename=\"$filename\"");
}
QQ群:凯发娱乐官网官方群(515171538),验证音讯:10000
微信群:加小编微信 849023636 邀请您参加,验证音讯:10000
提示:更多精彩内容重视微信大众号:全栈开发者中心(fsder-com)
网友谈论(共0条谈论) 正在载入谈论......
沉着谈论文明上网,回绝歹意咒骂 宣布谈论 / 共0条谈论
登录会员中心