Wrong tokenizer used for OpenAI embeddings

I was looking through the OpenAI code and noticed that the [wrong tokenizer is used](https://github.com/cfortuner/promptable/blob/fdcd5a5b12b0584ffe71f6113be4f2c47d83be80/packages/promptable/src/providers/OpenAI.ts#L132) for newer models like `text-embedding-ada-002` that use `cl100k`, implemented by tiktoken.

There is a list of encodings [here](https://github.com/openai/tiktoken/blob/main/tiktoken/model.py) for their public models.

I'm currently looking at making a wasm build of tiktoken, though I think a pure js approach would also work fine.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Wrong tokenizer used for OpenAI embeddings #31

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Wrong tokenizer used for OpenAI embeddings #31

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions