翼度科技»论坛 编程开发 python 查看内容

python json jsonl 的用法详解

3

主题

3

帖子

9

积分

新手上路

Rank: 1

积分
9
JSON

JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,广泛用于在客户端和服务器之间传输数据。以下是 Python 中使用 JSON 的一些常见用法:

1. 将 Python 对象转换为 JSON 字符串

使用
  1. json.dumps()
复制代码
函数将 Python 对象(如字典、列表等)转换为 JSON 字符串。
  1. import json

  2. # Python 字典
  3. data = {
  4.     "name": "Alice",
  5.     "age": 30,
  6.     "city": "New York",
  7.     "skills": ["Python", "Machine Learning"]
  8. }

  9. # 转换为 JSON 字符串
  10. json_str = json.dumps(data)
  11. print(json_str)
复制代码
输出示例:
  1. {"name": "Alice", "age": 30, "city": "New York", "skills": ["Python", "Machine Learning"]}
复制代码
2. 将 JSON 字符串解析为 Python 对象

使用
  1. json.loads()
复制代码
函数将 JSON 字符串解析为 Python 对象(如字典、列表等)。
  1. json_str = '{"name": "Alice", "age": 30, "city": "New York", "skills": ["Python", "Machine Learning"]}'

  2. # 将 JSON 字符串解析为 Python 字典
  3. data = json.loads(json_str)
  4. print(data)
复制代码
输出示例:
  1. {'name': 'Alice', 'age': 30, 'city': 'New York', 'skills': ['Python', 'Machine Learning']}
复制代码
3. 将 Python 对象写入 JSON 文件

使用
  1. json.dump()
复制代码
函数将 Python 对象写入到 JSON 文件中。
  1. import json

  2. data = {
  3.     "name": "Alice",
  4.     "age": 30,
  5.     "city": "New York",
  6.     "skills": ["Python", "Machine Learning"]
  7. }

  8. # 将 Python 对象写入 JSON 文件
  9. with open('data.json', 'w') as json_file:
  10.     json.dump(data, json_file)
复制代码
4. 从 JSON 文件读取数据

使用
  1. json.load()
复制代码
函数从 JSON 文件中读取数据并解析为 Python 对象。
  1. import json

  2. # 从 JSON 文件读取数据
  3. with open('data.json', 'r') as json_file:
  4.     data = json.load(json_file)
  5.     print(data)
复制代码
输出示例:
  1. {'name': 'Alice', 'age': 30, 'city': 'New York', 'skills': ['Python', 'Machine Learning']}
复制代码
5. 自定义 JSON 编码

如果你有自定义的类对象并想要将其转换为 JSON,可以通过实现自定义的编码器:
  1. import json

  2. class Employee:
  3.     def __init__(self, name, age, position):
  4.         self.name = name
  5.         self.age = age
  6.         self.position = position

  7. # 自定义的 JSON 编码器
  8. def encode_employee(obj):
  9.     if isinstance(obj, Employee):
  10.         return {'name': obj.name, 'age': obj.age, 'position': obj.position}
  11.     raise TypeError(f"Object of type {obj.__class__.__name__} is not JSON serializable")

  12. # 创建 Employee 对象
  13. employee = Employee("John", 28, "Software Engineer")

  14. # 使用自定义编码器将对象转换为 JSON 字符串
  15. json_str = json.dumps(employee, default=encode_employee)
  16. print(json_str)
复制代码
输出示例:
  1. {"name": "John", "age": 28, "position": "Software Engineer"}
复制代码
6. 格式化 JSON 输出

使用
  1. json.dumps()
复制代码
时,可以通过
  1. indent
复制代码
参数生成格式化的 JSON 字符串,便于阅读。
  1. import json

  2. data = {
  3.     "name": "Alice",
  4.     "age": 30,
  5.     "city": "New York",
  6.     "skills": ["Python", "Machine Learning"]
  7. }

  8. # 生成格式化的 JSON 字符串
  9. json_str = json.dumps(data, indent=4)
  10. print(json_str)
复制代码
输出示例:
  1. {
  2.     "name": "Alice",
  3.     "age": 30,
  4.     "city": "New York",
  5.     "skills": [
  6.         "Python",
  7.         "Machine Learning"
  8.     ]
  9. }
复制代码
7. 处理复杂对象

如果需要序列化更复杂的对象,可以通过自定义
  1. JSONEncoder
复制代码
类来处理。
  1. import json

  2. class Employee:
  3.     def __init__(self, name, age, position):
  4.         self.name = name
  5.         self.age = age
  6.         self.position = position

  7. class EmployeeEncoder(json.JSONEncoder):
  8.     def default(self, obj):
  9.         if isinstance(obj, Employee):
  10.             return {'name': obj.name, 'age': obj.age, 'position': obj.position}
  11.         return super().default(obj)

  12. employee = Employee("John", 28, "Software Engineer")

  13. # 使用自定义的编码器将对象转换为 JSON 字符串
  14. json_str = json.dumps(employee, cls=EmployeeEncoder)
  15. print(json_str)
复制代码
输出示例:
  1. {"name": "John", "age": 28, "position": "Software Engineer"}
复制代码
JSONL

JSONL(JSON Lines)是一种简单的文件格式,专门用于存储多个JSON对象,每个对象占用一行。JSONL文件的扩展名通常为
  1. .jsonl
复制代码
  1. .ndjson
复制代码
(Newline Delimited JSON)。这种格式在处理大量结构化数据时非常有效,因为它允许逐行读取和处理数据。
下面是JSONL的常见用法示例,包括如何在Python中读取和写入JSONL格式的数据。

1. JSONL 文件的结构

一个JSONL文件可能看起来如下:
  1. {"name": "Alice", "age": 30, "city": "New York"}
  2. {"name": "Bob", "age": 25, "city": "Los Angeles"}
  3. {"name": "Charlie", "age": 35, "city": "Chicago"}
复制代码
每一行都是一个有效的JSON对象,行与行之间用换行符
  1. \n
复制代码
分隔。

2. 读取 JSONL 文件

使用Python读取JSONL文件时,可以逐行处理文件中的JSON对象:
  1. import json

  2. # 读取 JSONL 文件
  3. with open('data.jsonl', 'r') as jsonl_file:
  4.     for line in jsonl_file:
  5.         # 解析每一行的 JSON 对象
  6.         data = json.loads(line)
  7.         print(data)
复制代码
输出示例:
  1. {'name': 'Alice', 'age': 30, 'city': 'New York'}
  2. {'name': 'Bob', 'age': 25, 'city': 'Los Angeles'}
  3. {'name': 'Charlie', 'age': 35, 'city': 'Chicago'}
复制代码
3. 写入 JSONL 文件

写入JSONL文件时,可以逐行将多个JSON对象写入文件,每个对象占用一行:
  1. import json

  2. # 准备要写入的多个 JSON 对象
  3. data_list = [
  4.     {"name": "Alice", "age": 30, "city": "New York"},
  5.     {"name": "Bob", "age": 25, "city": "Los Angeles"},
  6.     {"name": "Charlie", "age": 35, "city": "Chicago"}
  7. ]

  8. # 写入 JSONL 文件
  9. with open('data.jsonl', 'w') as jsonl_file:
  10.     for data in data_list:
  11.         jsonl_file.write(json.dumps(data) + '\n')
复制代码
4. 追加写入 JSONL 文件

如果需要追加数据到已有的JSONL文件中,可以使用追加模式
  1. 'a'
复制代码
  1. import json

  2. # 要追加写入的 JSON 对象
  3. new_data = {"name": "Diana", "age": 28, "city": "Houston"}

  4. # 追加写入 JSONL 文件
  5. with open('data.jsonl', 'a') as jsonl_file:
  6.     jsonl_file.write(json.dumps(new_data) + '\n')
复制代码
5. 处理大数据集

由于JSONL格式允许逐行读取和处理数据,特别适合用于处理大数据集。比如当数据量较大时,可以用下面的方式逐行读取并处理,而不需要将整个文件一次性加载到内存中:
  1. import json

  2. # 逐行处理大数据集
  3. with open('large_data.jsonl', 'r') as jsonl_file:
  4.     for line in jsonl_file:
  5.         data = json.loads(line)
  6.         # 对每一行的数据进行处理
  7.         process_data(data)
复制代码
6. 与Pandas集成

如果你需要将JSONL文件的数据加载到Pandas DataFrame中,Pandas的
  1. read_json
复制代码
方法也支持读取JSONL格式的数据:
  1. import pandas as pd

  2. # 使用 Pandas 读取 JSONL 文件
  3. df = pd.read_json('data.jsonl', lines=True)
  4. print(df)
复制代码
输出示例:
  1.       name  age         city0    Alice   30    New York1      Bob   25  Los Angeles2  Charlie   35     Chicago
复制代码
总结

JSONL格式是一种非常实用的数据存储格式,特别适合处理大型、结构化的数据集。使用它的主要优点包括:

  • 逐行读取:有效处理大文件,节省内存。
  • 简便性:每一行都是独立的JSON对象,便于解析和处理。
  • 灵活性:可以很容易地将数据追加到已有文件中。
通过上述方法,您可以轻松地在Python中读取、写入和处理JSONL格式的数据。
到此这篇关于python json jsonl 的用法详解的文章就介绍到这了,更多相关python json jsonl 内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

来源:https://www.jb51.net/python/326747fmg.htm
免责声明:由于采集信息均来自互联网,如果侵犯了您的权益,请联系我们【E-Mail:cb@itdo.tech】 我们会及时删除侵权内容,谢谢合作!

举报 回复 使用道具