本文将覆盖在ECMAScript 6 (ES6)中,字符串的新特性。
Unicode 码位(code point)转义
Unicode字符码位的长度是21位[2]。而JavaScript的字符串,是16位的,以UTF-16的方式编码。因此,超出16位码长的码位范围(the Basic Multilingual Pane, BMP, 基本多文种平面)则用两个JavaScript字符表示。直到现在,如果想用数字指定这样的码位,需要两个叫Unicode转义符的东西。以下,则会以相应的码位(0x1F680)打印出一个火箭。
console.log('\uD83D\uDE80');
在ECMAScript 6中,有一个新的Unicode转义符,能让你指定任意的码位(不用再管是否是16位):
console.log('\u{1F680}');
字符串的插值,多行及原始字符语法
模板字符串 [3]提供了3个有意思的特性。 1. 模板字符中,支持字符串插值:
let first = 'Jane';
let last = 'Doe';
console.log(`Hello ${first} ${last}!`);
// Hello Jane Doe!
2. 模板字符串可以包含多行:
let multiLine = `
This is
a string
with multiple
lines`;
3. 模板字符串可以是原始的:
若使用String.raw
作为模板字符串的前缀,则模板字符串可以是*原始(raw)*的。反斜线也不再是特殊字符,\n
也不会被解释成换行符:
let raw = String.raw`Not a newline: \n`;
console.log(raw === 'Not a newline: \\n'); // true
字符串迭代那些事
字符串是可迭代的 [4],这就意味着可以使用for-of
去迭代其中的字符:
for (let ch of 'abc') {
console.log(ch);
}
// Output:
// a
// b
// c
亦可用展开运行符(...) 将字符串转换成数组:
let chars = [...'abc'];
// ['a', 'b', 'c']
处理Unicode的码位
字符串迭代器,会以码位边界将字符串进行划分。这将导致迭代器的返回值,会是一个或两个字符:
for (let ch of 'x\uD83D\uDE80y') {
console.log(ch.length);
}
// Output:
// 1
// 2
// 1
这将会为我提供一个快速而简单的方法,去计算字符串Unicode码位的数量:
> [...'x\uD83D\uDE80y'].length
3
这同样会在,不包含基本多文种平面(non-BMP)码位的字符串操作中提供方便。如:反转字符串:
let str = 'x\uD83D\uDE80y';
// ES5: \uD83D\uDE80 are (incorrectly) reversed
console.log(str.split('').reverse().join(''));
// 'y\uDE80\uD83Dx'
// ES6: order of \uD83D\uDE80 is preserved
console.log([...str].reverse().join(''));
// 'y\uD83D\uDE80x'
这是在firefox控制台中,两个反转之后的结果:
码位中数值
有一个新的方法 codePointAt()
将返回字符串,给定索引的码位数字值:
let str = 'x\uD83D\uDE80y';
console.log(str.codePointAt(0).toString(16)); // 78
console.log(str.codePointAt(1).toString(16)); // 1f680
console.log(str.codePointAt(3).toString(16)); // 79
该方法在与字符串迭代操作结合时,也能很好的运行使用:
for (let ch of 'x\uD83D\uDE80y') {
console.log(ch.codePointAt(0).toString(16));
}
// Output:
// 78
// 1f680
// 79
与方法codePointAt()
相对的则是String.fromCodePoint()
:
> String.fromCodePoint(0x78, 0x1f680, 0x79) === 'x\uD83D\uDE80y'
true