El Algoritmo Smith de Google supera a BERT

enero 7, 2021 0 Por claretcoromoto
El Algoritmo Smith de Google supera a BERT

El nuevo algoritmo SMITH de Google comprende el contenido de formato largo mejor que BERT.

Google publicó recientemente un artículo de investigación sobre un nuevo algoritmo llamado SMITH que, según afirma, supera a BERT en la comprensión de consultas y documentos extensos. En particular, lo que hace que este nuevo modelo sea mejor es que es capaz de comprender pasajes dentro de los documentos de la misma manera que BERT comprende palabras y oraciones, lo que permite que el algoritmo comprenda documentos más largos.

El 3 de noviembre de 2020 leí acerca de un algoritmo de Google llamado Smith que afirma superar a BERT. Lo discutí brevemente el 25 de noviembre en el episodio 395 del podcast SEO 101 a fines de noviembre.

Roger Montti
SEJ

Acota que ha estado esperando hasta tener algo de tiempo para escribir un resumen porque SMITH parece ser un algoritmo importante y merecía una redacción reflexiva, lo que intenté humildemente.

Así que aquí está, espera que lo disfruten y si lo ha hecho, por favor comparte este artículo.

¿Utiliza Google el algoritmo SMITH?

Google generalmente no dice qué algoritmos específicos está utilizando. Aunque los investigadores dicen que este algoritmo supera a BERT, hasta que Google declare formalmente que el algoritmo SMITH está en uso para comprender pasajes dentro de las páginas web, es puramente especulativo decir si está en uso o no.

¿Qué es el algoritmo SMITH?

SMITH es un nuevo modelo para intentar comprender documentos completos. Los modelos como BERT están entrenados para comprender palabras dentro del contexto de oraciones.

Temas que te pueden interesar  Google Photos le pone límite al almacenamiento ilimitado

En una descripción muy simplificada, el modelo SMITH está capacitado para comprender pasajes dentro del contexto de todo el documento.

Mientras que los algoritmos como BERT están entrenados en conjuntos de datos para predecir palabras ocultas aleatoriamente del contexto dentro de las oraciones, el algoritmo SMITH está entrenado para predecir cuál es el siguiente bloque de oraciones.

Este tipo de formación ayuda al algoritmo a comprender los documentos más grandes mejor que el algoritmo BERT, según los investigadores.

El algoritmo BERT tiene limitaciones

Así es como presentan las deficiencias de BERT:

“En los últimos años, los modelos basados ​​en la auto-atención como Transformers … y BERT … han logrado un rendimiento de vanguardia en la tarea de coincidencia de texto. Estos modelos, sin embargo, todavía están limitados a textos breves como unas pocas oraciones o un párrafo debido a la complejidad computacional cuadrática de la auto-atención con respecto a la longitud del texto de entrada. En este artículo, se aborda el problema proponiendo el codificador jerárquico (SMITH) basado en transformador de profundidad múltiple siamés para la comparación de documentos de formato largo. Nuestro modelo contiene varias innovaciones para adaptar los modelos de auto atención para una entrada de texto más larga».

Según los investigadores, el algoritmo BERT se limita a comprender documentos breves. Por una variedad de razones explicadas en el documento de investigación, BERT no es adecuado para comprender documentos de formato largo.

Los investigadores proponen su nuevo algoritmo que, según dicen, supera al BERT con documentos más largos.

Luego explican por qué los documentos largos son difíciles:

Temas que te pueden interesar  Google: Actualización de Page Experience

“… La coincidencia semántica entre textos largos es una tarea más desafiante debido a algunas razones:

  • Cuando ambos textos son largos, hacer coincidirlos requiere una comprensión más profunda de las relaciones semánticas, incluido el patrón de coincidencia entre fragmentos de texto a larga distancia;
  • Los documentos largos contienen una estructura interna como secciones, pasajes y oraciones. Para los lectores humanos, la estructura del documento suele jugar un papel clave para la comprensión del contenido. De manera similar, un modelo también debe tener en cuenta la información de la estructura del documento para un mejor rendimiento de coincidencia de documentos;
  • Es más probable que el procesamiento de textos extensos desencadene problemas prácticos, como la salida de memorias de TPU / GPU sin un diseño de modelo cuidadoso».