Как создать вложение из списка английских предложений

Kak Sozdat Vlozenie Iz Spiska Anglijskih Predlozenij



Вы когда-нибудь задумывались, когда мы общаемся с нашими машинами (компьютерами) и даем им инструкции для выполнения определенной задачи для нас, например, для выполнения определенного поиска или перевода с одного языка на другой, как компьютер это понимает и обрабатывает? Все это делается с помощью подполя искусственного интеллекта обработки естественного языка. Компьютер понимает числовые значения, а метод НЛП «встраивания слов» преобразует слово и тексты, которые мы вводим в компьютер, в числовой вектор, чтобы компьютер мог его распознать. Помимо этого взаимодействия человека с компьютером посредством языковых моделей, происходит несколько других процессов НЛП, но мы подробно рассмотрим встраивание слова в этом руководстве.

Синтаксис:

Различные функции подпадают под обработку естественного языка для встраивания слов в текст. В этой статье рассматривается функция «word2vec» для этой цели. Чтобы было понятнее, встраивание слов преобразует наши текстовые входы в векторное представление, где те слова, которые имеют более или менее одинаковые контекстуальные значения, дали одинаковое представление.

Алгоритм «word2vec» представляет собой модель нейронной сети, которая обучена таким образом, что изучает встраивание слов, сначала предсказывая контекст слова, в котором оно появляется. Эта модель принимает текст в качестве входных данных. Затем для каждого слова в тексте создается векторное представление этого слова. Эта модель основана на идее, что слова, имеющие одинаковый контекст, имеют одинаковые значения. Синтаксис для «word2vec» следующий:







$ Word2Vec(предложений, min_count)

Этот алгоритм имеет два параметра: «предложения» и «минимальное количество». Предложение — это переменная, в которой хранится список предложений или текст в виде предложений, а minimum_count говорит о значении счетчика, равном 1, что означает, что любое слово в тексте, которое появилось меньше единицы, должно быть проигнорировано. .



Пример 1:

В этом примере мы создаем вложения слов для слов, которые существуют в списке английских предложений. Чтобы создать слово «встраивание», нам нужно использовать модель «word2vec». Эта модель представляет собой пакет библиотеки Python «gensim». Нам нужно, чтобы Gensim был установлен в наших репозиториях библиотеки Python для работы с «word2vec».



Чтобы реализовать этот пример, мы будем работать с онлайн-компилятором Python «google colab». Чтобы установить gensim, используйте команду «pip install gensim». Начнется загрузка этой библиотеки со всеми связанными с ней пакетами. После установки импортируйте пакет «word2vector» из gensim.





Чтобы обучить эту модель «word2vec», нам нужно создать набор обучающих данных. Для этого мы создаем список предложений, содержащий от четырех до пяти английских предложений. Мы сохраняем этот список в переменной «training_data».

Наш следующий шаг после создания обучающего набора данных — обучить модель «word2vec» на этих данных. Итак, вызываем модель. Мы даем обучающие данные во входных параметрах этой модели, которые мы сохранили в переменной «вход». Затем мы указываем второй параметр, который является «минимальным_счетчиком». Устанавливаем его значение равным «1». Выходные данные этой обучающей модели сохраняются в переменной «trained_model».



Как только мы закончим обучение модели, мы можем просто получить доступ к модели с префиксом «wv», который является векторной моделью слова. Мы также можем получить доступ к словарю токенов наших слов и можем распечатать их с помощью следующего метода:

vocabof_tokens = список (model.wv.vocab)

Модель представляет собой обученную модель в нашем случае. Теперь мы получаем доступ к векторному представлению одного слова в списке предложения, которым в нашем случае является «яблоко». Мы делаем это, просто вызывая обученную модель. Мы передаем слово, векторное представление которого мы хотим напечатать, как «model. wv[‘apple’]» на входной параметр. Затем мы печатаем результаты с помощью функции «печать».

от как нация модели Импортировать Word2Vec

training_data '=' [ [ 'яблоко' , 'является' , 'то' , 'сладкий' , 'яблоко' , 'для' , 'word2vec' ] ,
[ 'этот' , 'является' , 'то' , 'второй' , 'яблоко' ] ,
[ 'здесь' , 'другой' , 'яблоко' ] ,
[ 'один' , 'сладкий' , 'яблоко' ] ,
[ 'и' , 'более' , 'сладкий' , 'яблоко' ] ]

модель '=' Word2Vec ( training_data , min_count '=' 1 )
Распечатать ( модель )
vocabof_tokens '=' список ( модель. wv . index_to_key )
Распечатать ( vocabof_tokens )
Распечатать ( модель. wv [ 'яблоко' ] )

Из ранее упомянутого вывода и кода показано встраивание слова для слова «яблоко». В примере мы сначала создали обучающий набор данных. Затем мы обучили на нем модель и резюмировали модель. Затем, используя модель, мы получили доступ к словарю токенов слов. После этого мы отобразили встраивание слова для слова «яблоко».

Пример 2:

Используя библиотеку gensim, давайте создадим еще один список предложений. Обучите нашу модель для каждого слова в предложении, чтобы создать вложение слов с использованием модели «word2vec». Сначала из пакета библиотеки gensim импортируется модель «word2vec». Затем мы создаем еще один набор данных, который будет списком, в котором есть два предложения. Каждое предложение в списке состоит из четырех слов.

Теперь мы сохраняем этот список в переменной «data». Затем мы вызываем модель «word2vec()» и подаем данные в аргументы этой модели со значением minimum_count, равным «1». Вот как мы обучаем нашу модель. Теперь он может и может изучать встраивание слов, которые существуют в предложениях, присутствующих в списке, путем прогнозирования контекста, в котором они существуют. Чтобы проверить результаты нашей модели, мы просто передаем в модель такое слово, как «собака» в наших данных. Затем мы печатаем результаты с помощью функции «print()».

от как нация модели Импортировать Word2Vec
данные '=' [ [ 'кролик' , 'имеет' , 'зубы' ] , [ 'собака' , 'имеет' , 'уши' ] ]
модель '=' Word2Vec ( данные , min_count '=' 1 )
Распечатать ( модель. wv [ 'собака' ] )

Мы можем наблюдать векторное представление слова, которое мы передали модели в качестве входных данных из предыдущего фрагмента вывода.

Заключение

В этом руководстве демонстрируется метод создания встраивания слов для слов, существующих в списке английских предложений. Мы узнали о библиотеке Python «gensim», которая предоставляет модель «word2vec» для создания встраивания слов. Кроме того, мы узнали о входных параметрах, как обучить модель «word2vec» на обучающих данных и как представить слово в представлении вектора.