如何解决Python中文本文件转换编码的问题？

PHPz 136 阅读 0 评论 430 点赞

测试数据

Python的文本文件转换编码问题怎么解决

注：测试文本采用UTF-8编码，通常汉字是占三个字节。GBK中汉字通常是占2个字节。

编码转换代码

import os

# 对于单个文件进行操作的函数，如果需要对文件夹进行操作，可以使用一个函数包装它，这样不用修改本函数，即达到扩展的目的了。
def transfer_encode(source_path, target_path, source_encode='GBK', target_encode='UTF-8'):
    with open(source_path, mode='r', errors='ignore', encoding=source_encode) as source_file:  # 读取文件时，如果直接忽略报错，则程序正常执行，但是文件已经损坏了。
        with open(target_path, mode='w', encoding=target_encode) as target_file:               # 所以，应该捕获异常，停止程序执行。
            line = source_file.readline()
            while line != '':
                target_file.write(line)
                line = source_file.readline()
    print("Execute End!")


# 这个函数的功能和上面是一样的，区别在于它是以二进制读取的，然后解码、转码再写入的
def transfer_encode2(source_path, target_path, source_encode='GBK', target_encode='UTF-8'):
    with open(source_path, mode='rb') as source_file:
        with open(target_path, mode="wb") as target_file:
            bs = source_file.read(1024)
            while len(bs) != 0:
                target_file.write(bs.decode(source_encode).encode(target_encode))
                bs = source_file.read(1024)
    print("Execute End!")



source_path = r'C:\Users\Alfred\Desktop\test_data\test\data.txt'
target_path = r'C:\Users\Alfred\Desktop\test_data\test\data1.txt'

transfer_encode(source_path=source_path, target_path=target_path, source_encode="UTF-8", target_encode="GBK")

# transfer_encode2(source_path=source_path, target_path=target_path)

# 在cmd中使用 type命令，可以查看文件的内容，并且使用cmd默认的编码。
# 使用 chcp 命令可以查看当前使用的编码的数字编号

登录后复制

执行结果

控制台输出 这个函数执行的输出没有什么意义，只是我要知道它执行了没，所以打印的。

Python的文本文件转换编码问题怎么解决

测试文件夹 data1.txt是转换编码后的文本。

Python的文本文件转换编码问题怎么解决

从生成的文件来看，因为只含有一个字，所以只比较大小就知道是否转换成功了。当然了，直接打开查看也是可以的，但是直接打开查看的话，没有什么效果，都会显示一个汉字龙。所以，这里我们另辟蹊径，使用不一样的查看方式！

Python的文本文件转换编码问题怎么解决

注意：data.txt是采用的UTF-8编码的，而data1.txt是采用的GBK编码的。因为国内使用的Windows默认采用的中国的编码方式，所以它显示不了UTF-8编码的文本。第三个输出是查看当前使用的编码，它返回的是编码的代号，详见下图：

Python的文本文件转换编码问题怎么解决

注：GBK是兼容GB2312的编码。

说明

使用python的话，对于单个文件进行编码转换，只需要7行代码就够了！上面我写了两个函数，但是功能是一样的，区别在于第一个函数是以特定的编码方式读取文本信息，然后直接以另一种编码方式写入。第二个函数是以二进制形式读取文件内容，然后解码再转码写入。它的原理都是一样的，即必须包括依次解码和转码操作。

编码、解码、字符集本身是很复杂的，往深入了讲我也不会了。这里可以这样简化理解，两个不同编码的字符集具有相同的字符，所以将UTF-8编码文件读取出来，是为了得到它映射的字符，然后再写入，是为了将它映射为另一种编码字符集，所以说字符类似于中转站的功能。 而直接使用一种字符集去读取另一种字符集的内容，就会出现上面cmd中显示的乱码。

Python的文本文件转换编码问题怎么解决

PS: 所以，也可以解释一个问题，即为什么打开一个大的文本文件，会导致程序卡死！因为一个大的文本文件，里面包含了很多需要解码的字符。这就和排队有点类似，每一个字符等待被解码，虽然处理一个字符很快，但是一个大的文本文件，包含了大量的字符。例如，notepad++打开大文本毫无压力，我打开这个超大型的文本，还是直接把它卡死了！（这里的排队只是一个比喻，实际的情况我也不太清楚，但是它一定是需要挨个处理的。）

Python的文本文件转换编码问题怎么解决

我们对其进行估计，假设所有字符都是中文（实际的话，还是包含一些英文的，当总的来说还是中文占多数。）这里显示是大约5千万的字符需要解码，所以计算机处理起来仍然是很吃力的，notepad++可以查看摘要，但是直接打开就卡死了，这里就不进行尝试了。

Python的文本文件转换编码问题怎么解决

以上就是如何解决Python中文本文件转换编码的问题？的详细内容，转载自php中文网

点赞(430) 打赏

免责声明：本文内容由网友自发贡献，或转载各大站转载，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系123246359@163.com核实处理。
本文分类：python
本文标签：php
浏览次数：136 次浏览
发布日期：2023-04-22 22:28:05
本文链接：https://yinghuohong.cn/python/15561.html

上一篇 > Python编程中常用的技巧有哪些？
下一篇 > Python的OS模块的使用方法及示例

评论列表共有 0 条评论

暂无评论

如何解决Python中文本文件转换编码的问题？

测试数据

编码转换代码

执行结果

说明

PHP实现在线进制转换器，10进制，2、4、8、16、32进制转换

fileclude（文件包含漏洞及php://input、php://filter的使用）

PHP 对银行卡，手机号，真实姓名，身份证进行掩码加星号处理

悟空CRM11.0 PHP版本docker容器化部署全流程

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复