本文介绍如何通过Python SDK向Collection中插入Doc。
插入Doc时若指定id已存在,已存在的Doc不会被覆盖,本次插入Doc操作无效。
插入Doc时若不指定id,则在插入过程中会自动生成id,并在返回结果中携带id信息。
前提条件
已创建Cluster:创建Cluster。
已获得API-KEY:API-KEY管理。
已安装最新版SDK:安装DashVector SDK。
接口定义
Collection.insert(
docs: Union[Doc, List[Doc], Tuple, List[Tuple]],
partition: Optional[str] = None,
async_req: False
) -> DashVectorResponse
使用示例
需要使用您的api-key替换示例中的YOUR_API_KEY、您的Cluster Endpoint替换示例中的YOUR_CLUSTER_ENDPOINT,代码才能正常运行。
本示例需要参考新建Collection-使用示例提前创建好名称为
quickstart
的Collection。
import dashvector
from dashvector import Doc
import numpy as np
client = dashvector.Client(
api_key='YOUR_API_KEY',
endpoint='YOUR_CLUSTER_ENDPOINT'
)
collection = client.get(name='quickstart')
插入Doc
# 通过Doc对象insert
ret = collection.insert(
Doc(
id='1',
vector=[0.1, 0.2, 0.3, 0.4]
)
)
# 判断insert是否成功
assert ret
# 简化形式:通过Tuple insert
ret = collection.insert(
('2', [0.1, 0.1, 0.1, 0.1]) # (id, vector)
)
插入不带有Id的Doc
# 插入Doc不携带id
ret = collection.insert(
Doc(vector=[0.1, 0.2, 0.3, 0.4])
)
# 简化形式:通过Tuple insert
ret = collection.insert(
([0.1, 0.1, 0.1, 0.1],)
)
插入带有Fields的Doc
# insert单条数据,并设置Fields Value
ret = collection.insert(
Doc(
id='3',
vector=np.random.rand(4),
fields={
# 设置创建Collection时预定义的Fields Value
'name': 'zhangsan', 'weight':70.0, 'age':30,
# 设置Schema-Free的Field & Value
'anykey1': 'str-value', 'anykey2': 1,
'anykey3': True, 'anykey4': 3.1415926
}
)
)
# insert单条数据,并设置Fields Value
ret = collection.insert(
('4', np.random.rand(4), {'foo': 'bar'}) # (id, vector, fields)
)
批量插入Doc
# 通过Doc对象,批量insert 10条数据
ret = collection.insert(
[
Doc(id=str(i+5), vector=np.random.rand(4)) for i in range(10)
]
)
# 简化形式:通过Tuple,批量insert 3条数据
ret = collection.insert(
[
('15', [0.2,0.7,0.8,1.3], {'age': 20}),
('16', [0.3,0.6,0.9,1.2], {'age': 30}),
('17', [0.4,0.5,1.0,1.1], {'age': 40})
] # List[(id, vector, fields)]
)
# 判断批量insert是否成功
assert ret
异步插入Doc
# 异步批量insert 10条数据
ret_funture = collection.insert(
[
Doc(id=str(i+18), vector=np.random.rand(4), fields={'name': 'foo' + str(i)}) for i in range(10)
],
async_req=True
)
# 等待并获取异步insert结果
ret = ret_funture.get()
插入带有Sparse Vector的Doc
ret = collection.insert(
Doc(
id='28',
vector=[0.1, 0.2, 0.3, 0.4],
sparse_vector={1:0.4, 10000:0.6, 222222:0.8}
)
)
插入多向量的Doc
collection = client.get(name='multi_vector_demo')
docs = []
for i in range(10):
docs.append(Doc(id=str(i),
vectors={"title": np.random.random(4),
"content": np.random.random(6)
},
)
)
ret = collection.insert(docs)
print(ret)
入参描述
参数 | 类型 | 默认值 | 说明 |
docs | - | 插入的数据或数据list | |
partition(可选) | Optional[str] | None | Partition名称 |
async_req(可选) | bool | False | 是否异步 |
docs参数,id为非必填项。当类型为Tuple时,可以为
(vector)
、(id, vector)
、(vector, fields)
或(id, vector, fields)
顺序,等同于Doc对象。Doc对象的fields参数,可自由设置“任意”的KeyValue数据,Key必须为
str
类型,Value必须为str or int or bool or float
。当Key在创建Collection时预先定义过,则Value的类型必须为预定义时的类型
当Key未在创建Collection时预先定义过,则Value的类型可为
str or int or bool or float
是否预先定义Fields,可参考Schema Free。
出参描述
返回结果为DashVectorResponse对象,DashVectorResponse对象中可获取本次操作结果信息,如下表所示。
字段 | 类型 | 描述 | 示例 |
code | int | 返回值,参考返回状态码说明 | 0 |
message | str | 返回消息 | success |
request_id | str | 请求唯一id | 19215409-ea66-4db9-8764-26ce2eb5bb99 |
output | List[DocOpResult] | 返回插入Doc的结果 | |
usage | 对Serverless实例(按量付费)集合的Doc插入请求,成功后返回实际消耗的写请求单元数 |