使用mysql数据库的时候,如果字符集是UTF-8并且在java服务器上,当存储emoji表情的时候,会抛出以下异常(微信开发获取用户昵称,有的用户的昵称用的是emoji的图像)

java.sql.SQLException: Incorrect string value: '\xF0\x9F\x92\x94' for colum n 'nickName' at row 1 

at com.mysql.jdbc.SQLError.createSQLException(SQLError.java:1073) 

at com.mysql.jdbc.MysqlIO.checkErrorPacket(MysqlIO.java:3593) 

at com.mysql.jdbc.MysqlIO.checkErrorPacket(MysqlIO.java:3525) 

at com.mysql.jdbc.MysqlIO.sendCommand(MysqlIO.java:1986) 

at com.mysql.jdbc.MysqlIO.sqlQueryDirect(MysqlIO.java:2140) 

at com.mysql.jdbc.ConnectionImpl.execSQL(ConnectionImpl.java:2620) 

at com.mysql.jdbc.StatementImpl.executeUpdate(StatementImpl.java:1662) 

at com.mysql.jdbc.StatementImpl.executeUpdate(StatementImpl.java:1581)

原因: 这是由于字符集不支持的异常,因为utf-8编码有可能是两个,三个,四个字节,其中Emoji表情是四个字节,而mysql的utf-8编码最多三个字节,所以导致数据插不进去。

解决方法:

mysql保存emoji表情-微信用户昵称(完整保存与非完整保存)

一、完整保存

1.从数据库层面进行解决(mysql支持utf8mb4的版本是5.5.3+,必须升级到较新版本)

(1)修改database,table,column字符集

修改数据库编码

ALTER DATABASE database_name CHARACTER SET = utf8mb4 COLLATE = utf8mb4_unicode_ci;

修改表的编码

ALTER TABLE table_name CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;

修改表字段的编码

ALTER TABLE table_name CHANGE column_name VARCHAR(191) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;

(2)修改mysql配置文件mycnf(windows为my.ini)

[client]

default-character-set = utf8mb4

[mysql]

default-character-set = utf8mb4

[mysqld]

character-set-client-handshake = FALSE

character-set-server = utf8mb4

collation-server = utf8mb4_unicode_ci

init_connect='SET NAMES utf8mb4'

(3)mysql connection版本必须高于5.1.13

(4)db配置文件

jdbc.driverClassName=com.mysql.jdbc.Driver

jdbc.url=jdbc:mysql://localhost:3306/database?useUnicode=true&characterEncoding=utf8&autoReconnect=true&rewriteBatchedStatements=TRUE

jdbc.username=root

jdbc.password=123456

如果升级了mysql-connector,其中的characterEncoding=utf8可以自动被识别为utf8mb4(兼容原来的utf8),而

autoReconnection(当数据库连接异常中断时,是否自动重新连接?默认为false)强烈建议配上,忽略这个属性,可能导致缓存缘故 ,没有读取到DB最新的配置,导致一直无法试用utf8mb4字符集。

2.从应用层方面进行解决

在获取数据后对数据进行base64编码或url编码,当从数据库中取出准备显示的时候进行解码。

URLEncoder.encode(nickName, "utf-8");

URLDecoder.decode(nickname, "utf-8");

二、非完整保存(这里使用此方式)

非完整保存实际就是将字符串中特殊字符剔除,然后保存数据库

新增工具类EmojiFilter 工具类中方法如下

public class EmojiFilter {

    /**
     * 检测是否有emoji字符
     *
     * @param source 需要判断的字符串
     * @return 一旦含有就抛出
     */
    public static boolean containsEmoji(String source) {
        int len = source.length();
        for (int i = 0; i < len; i++) {
            char codePoint = source.charAt(i);
            if (!notisEmojiCharacter(codePoint)) {
                //判断确认有表情字符
                return true;
            }
        }
        return false;
    }

    /**
     * 非emoji表情字符判断
     *
     * @param codePoint
     * @return
     */
    private static boolean notisEmojiCharacter(char codePoint) {
        return (codePoint == 0x0)
                || (codePoint == 0x9)
                || (codePoint == 0xA)
                || (codePoint == 0xD)
                || ((codePoint >= 0x20) && (codePoint <= 0xD7FF))
                || ((codePoint >= 0xE000) && (codePoint <= 0xFFFD))
                || ((codePoint >= 0x10000) && (codePoint <= 0x10FFFF));
    }

    /**
     * 过滤emoji 或者 其他非文字类型的字符
     *
     * @param source 需要过滤的字符串
     * @return
     */
    public static String filterEmoji(String source) {
        if (!containsEmoji(source)) {
            return source;//如果不包含,直接返回
        }

        StringBuilder buf = null;//该buf保存非emoji的字符
        int len = source.length();
        for (int i = 0; i < len; i++) {
            char codePoint = source.charAt(i);
            if (notisEmojiCharacter(codePoint)) {
                if (buf == null) {
                    buf = new StringBuilder(source.length());
                }
                buf.append(codePoint);
            }
        }

        if (buf == null) {
            return "";//如果没有找到非emoji的字符,则返回无内容的字符串
        } else if (buf.length() == len) {
            buf = null;
            return source;
        } else {
            return buf.toString();
        }
    }

}


世间山河广,祝你得偿所愿!