آشنایی با گوگل برت

در مورد الگوریتم جدید گوگل بدانید

گوگل برت چیست و چگونه کار می‌کند، چگونه بر جستجو تأثیر می‌گذارد و آیا می‌توانید محتوای خود را برای آن بهینه کنید؟

جدیدترین به‌روزرسانی الگوریتمی گوگل، BERT ، به Google کمک می‌کند زبان طبیعی، به‌ویژه در جستجوی مکالمه را بهتر درک کند.

گوگل برت حدود ۱۰٪ از سؤالات را تحت تأثیر قرار می‌دهد. همچنین بر رتبه‌بندی ارگانیک و قطعه‌های ویژه تأثیر خواهد گذاشت؛ بنابراین این تغییر کمی نیست!

اما آیا می‌دانید BERT فقط یک به‌روزرسانی الگوریتمی نیست، بلکه یک مقاله تحقیقاتی است و یک چارچوب پردازش زبان طبیعی برای یادگیری ماشین است؟

در واقع، در سال قبل از اجرای آن، BERT باعث طوفانی شدید فعالیت در جستجوی تولید شده است.

در ۲۰ نوامبر، من یک وبینار موتور جستجوگر مجله را ارائه کردم که توسط داون اندرسون، مدیرعامل در Bertey ارائه شد.

اندرسون توضیح داد که BERT گوگل واقعاً چیست و چگونه کار می‌کند، چگونه بر جستجو تأثیر می‌گذارد و اینکه آیا می‌توانید محتوای خود را برای آن بهینه کنید.

 

گوگل برت در جستجو چیست؟

BERT ، مخفف Bidirectional Encoder Representations from Transformers ، در واقع موارد بسیاری است.

این محبوبیت بیشتر به‌عنوان عنصر / ابزار / چارچوب الگوریتم جستجوی گوگل به نام Google BERT شناخته می‌شود که هدف آن کمک به جستجو در درک بهتر تفاوت‌های متن و متن کلمات در جستجوها و مطابقت بهتر این سؤالات با نتایج مفید است.

 

BERT همچنین یک پروژه تحقیقاتی منبع باز و مقاله دانشگاهی است. اولین‌بار در اکتبر ۲۰۱۸ با عنوان BERT منتشر شد: پیش از آموزش ترانسفورماتورهای دوطرفه عمیق برای درک زبان، این مقاله توسط Jacob Devlin ، Ming-Wei Chang ، Kenton Lee ، Kristina Toutanova تألیف شد.

گوگل برت
گوگل برت

علاوه بر این، BERT یک چارچوب NLP برای پردازش زبان طبیعی است که گوگل آن را تولید کرده و سپس منابع آن را به‌صورت منبع آزاد بازکرده است، به‌طوری‌که کل زمینه تحقیقاتی پردازش زبان طبیعی می‌تواند در کل درک زبان طبیعی بهتر شود.

احتمالاً متوجه خواهید شد که بیشتر موارد ذکر شده در مورد BERT آنلاین مربوط به به‌روزرسانی Google BERT نیست.

گوگل برت

مقالات واقعی بسیاری در مورد BERT توسط محققان دیگر در حال انجام است که از آنچه شما به‌عنوان به‌روزرسانی الگوریتم Google BERT در نظر می‌گیرید استفاده نمی‌کند.

BERT درک زبان طبیعی NLU را بیش از هر چیز به طرز چشمگیری تسریع کرده است و حرکت گوگل به منبع باز BERT احتمالاً پردازش زبان طبیعی را برای همیشه تغییر داده است.

جوامع ML و NLP که یادگیری ماشینی دارند از BERT بسیار هیجان‌زده هستند زیرا برای انجام تحقیقات به زبان طبیعی مقدار زیادی سنگین‌وزن لازم است. در بسیاری از کلمات – و در کل ویکی‌پدیای انگلیسی ۲۵۰۰ میلیون کلمه – آموزش‌دیده است.

Vanilla BERT یک‌لایه شروع از قبل آموزش‌دیده برای شبکه‌های عصبی در یادگیری ماشین و کارهای مختلف زبان طبیعی ارائه می‌دهد.

درحالی‌که BERT از قبل در ویکی‌پدیا آموزش‌دیده است، در مورد مجموعه داده‌های پرسش‌وپاسخ به‌خوبی تنظیم شده است.

یکی از آن مجموعه داده‌های پرسش‌وپاسخ که می‌توان به‌صورت دقیق آن را تنظیم کرد، MS MARCO نام دارد: یک مجموعه اطلاعاتی برای درک مطلب خواندن مقاله انسانی تولید شده توسط مایکروسافت سؤالات و پاسخ‌های واقعی Bing

سؤالات ناشناس از کاربران واقعی Bing وجود دارد که در یک مجموعه داده با پرسش‌وپاسخ برای محققان ML و NLP تنظیم شده است و سپس آنها در واقع برای ساخت بهترین مدل با یکدیگر رقابت می‌کنند.

محققان همچنین بر سر درک زبان طبیعی با SQuAD (مجموعه داده‌های سؤال استنفورد) رقابت می‌کنند. BERT اکنون حتی معیار استدلال انسانی را در SQuAD شکست می‌دهد.

بیشتر بخوانید 

حمایت از یک وبینار SEJ

آیا می‌خواهید در مقابل بازاریابان سخت‌گیر و تصمیم گیرندگان تجاری قرار بگیرید؟ تخصص برند خود را در معرض دید افرادی قرار دهید که هنگام حمایت مالی از یک وبینار SEJ ThinkTank مهم هستند.

بسیاری از شرکت‌های بزرگ هوش مصنوعی نیز در حال ساخت نسخه‌های BERT هستند:

مایکروسافت با MT-DNN  شبکه عصبی عمیق چندمنظوره BERT را گسترش می‌دهد .

RoBERTa از فیس‌بوک.

معیار SuperGLUE ایجاد شده است زیرا معیار اصلی GLUE بسیار آسان شده است.

چه چالش‌هایی برای حل BERT کمک می‌کند؟

مواردی وجود دارد که ما انسان‌ها به‌راحتی می‌فهمیم که ماشین‌آلات از جمله موتورهای جستجو اصلاً نمی‌فهمند.

 

مشکل با کلمات

مشکل کلمات این است که آنها همه‌جا هستند. محتوای بیشتر و بیشتری در آنجا موجود است

کلمات مشکل‌ساز هستند زیرا بسیاری از آنها مبهم، چند شبه و مترادف هستند.

Bert برای کمک به حل جملات و عبارات مبهم طراحی شده است که از تعداد زیادی کلمه با چندین معنی تشکیل شده است.

 

ابهام و چند سندی

تقریباً هر کلمه دیگر در زبان انگلیسی معانی متعددی دارد. در کلمات گفتاری، به دلیل همخوانی و عروض بدتر است.

به ‌عنوان‌مثال، “چهار شمع” و “دسته چنگال” برای کسانی که لهجه انگلیسی دارند. مثال دیگر: شوخی‌های کمدین‌ها بیشتر مبتنی بر بازی با کلمات است زیرا برداشت از کلمات بسیار آسان است.

این برای ما انسان‌ها چالش‌برانگیز نیست زیرا ما عقل و منطق مشترکی داریم بنابراین می‌توانیم تمام کلمات دیگری را که در زمینه شرایط یا مکالمه احاطه شده‌اند درک کنیم – اما موتورها و ماشین‌های جستجو چنین نیستند.

این امر برای جستجوی گفتگو در آینده خوب نیست. و در آشنایی با گوگل برت مشکل ساز است

 

متن Word

“معنی یک کلمه استفاده از آن در یک زبان است.” – لودویگ ویتگنشتاین، فیلسوف، ۱۹۵۳

اساساً، این بدان معنی است که یک کلمه معنی ندارد مگر اینکه در یک زمینه خاص استفاده شود.

معنای یک کلمه به معنای واقعی کلمه درحالی‌که یک جمله به وجود می‌آید، به دلیل قسمت‌های مختلف گفتاری که یک کلمه می‌تواند در یک زمینه خاص باشد، تغییر می‌کند.

به طور مثال، فقط در یک جمله کوتاه می‌توانیم ببینیم “من روشی را دوست دارم که به شکل دیگر است.” به‌تنهایی با استفاده از برچسب بخش گفتار استنفورد که کلمه “مانند” دو قسمت جداگانه گفتار (POS) در نظر گرفته می‌شود.

کلمه “مانند” ممکن است به‌عنوان بخش‌های مختلف گفتار از جمله فعل، اسم و صفت استفاده شود.

بنابراین به معنای واقعی کلمه، کلمه “مانند” معنی ندارد زیرا می‌تواند به معنی هر چیزی باشد که آن را احاطه کرده است. متن “مانند” باتوجه‌به معنی کلمات اطراف آن تغییر می‌کند.

هرچه این جمله طولانی‌تر باشد، پیگیری تمام قسمت‌های مختلف گفتار در جمله دشوارتر است.

درLNR و NLU شناخت زبان طبیعی درک نیست

درک زبان طبیعی مستلزم درک درستی از زمینه و استدلال عقل سلیم است. این برای ماشین‌ها بسیار چالش‌برانگیز است اما برای انسان‌ها بسیار ساده است.

درک زبان طبیعی داده‌های ساختاری نیست

داده های ساختاری به ابهام‌زدایی کمک می‌کند اما در مورد آشفتگی گرم در این میان چه می‌کنید؟

همه افراد یا موارد موجود در نمودار دانش ترسیم نشده‌اند

هنوز جای خالی زیادی برای پرکردن وجود دارد. در اینجا یک مثال آورده شده است.

LNP مبتنی بر هستی‌شناسی

 

همان‌طور که در اینجا مشاهده می‌کنید، ما همه این موجودات و روابط بین آنها را داریم. اینجا جایی است که NLU وارد عمل می‌شود زیرا وظیفه دارد به موتورهای جستجو کمک کند تا شکاف بین موجودیت‌های نام‌گذاری شده را پر کنند.

 

چگونه موتورهای جستجو می‌توانند خلأ Bet موجود بین نهادهای نام‌برده را پر کنند؟

ابهام‌زدایی از زبان طبیعی

“شما باید یک کلمه را توسط شرکتی که نگهداری می‌کند بدانید.” – جان روپرت فرث، زبان‌شناس، ۱۹۵۷

کلماتی که با هم زندگی می‌کنند به شدت با هم مرتبط هستند:

هم‌زمانی

هم‌زمانی زمینه را فراهم می‌کند.

هم‌زمانی معنای یک کلمه را تغییر می‌دهد.

کلماتی که همسایگان مشابهی دارند نیز به شدت به هم مرتبط هستند

شباهت و قرابت.

مدل‌های زبانی برای شرکت‌های متنی بسیار بزرگ یا مجموعه‌ای از انبوه کلمات برای یادگیری شباهت توزیعی آموزش داده می‌شوند.

نمایش برداری کلمات (وکتورهای Word)نمایش برداری کلمات (بردارهای کلمه)

models و ساخت مدل‌های بردار فضایی برای تعبیه کلمات.

 

مدل‌های فضایی برداری برای تعبیه کلمات

مدل‌های NLP وزن‌های شباهت و فاصله‌های مربوط را یاد می‌گیرند. اما حتی اگر خود موجودیت (چیز) را نیز بفهمیم، باید متن word را درک کنیم

به‌تنهایی کلمات منفرد معنایی ندارند بنابراین به انسجام متن نیاز دارند. انسجام پیوند دستوری و واژگانی در متن یا جمله‌ای است که متن را در کنار هم نگه‌داشته و به آن معنا می‌بخشد.

زمینه معنایی مهم است. بدون کلمات پیرامونی، کلمه “سطل” می‌تواند در یک جمله معنی داشته باشد.

به سطل لگد زد.

من هنوز نتوانسته‌ام از لیست سطل‌هایم عبور کنم.

سطل پرازآب شد.

بخش مهمی از این برچسب‌گذاری بخشی از گفتار (POS) است:

POS Tagging

BERT چگونه کار می‌کند

مدل‌های زبان گذشته (مانند Word2Vec و Glove2Vec) تعبیه کلمات بدون متن را ایجاد کردند. از طرف دیگر، زمینه  bert را فراهم می‌کند.

برای درک بهتر نحوه کار BERT ، بیایید بررسی کنیم که اختصار مخفف چیست.

دو جهته آشنایی با گوگل برت

قبلاً همه مدل‌های زبانی (به‌عنوان‌مثال Skip-gram و Continuous Bag of Words) یک‌جهته بودند بنابراین فقط می‌توانستند پنجره زمینه را در یک‌جهت حرکت دهند – پنجره متحرک کلمات “n” (چپ یا راست کلمه موردنظر) برای درک متن کلمه

مدل‌ساز یک‌طرفه زبان مدل‌ساز زبان یک‌جهته

بیشتر مدل سازهای زبان یک‌جهته هستند. آنها می‌توانند از پنجره زمینه کلمه فقط از چپ به راست یا راست به چپ عبور کنند. فقط در یک‌جهت، اما نه هر دو در یک‌زمان.

BERT متفاوت است. BERT از مدل‌سازی دو جهته زبان استفاده می‌کند که اولین است

BERTBERT می‌تواند هم سمت چپ و هم سمت راست کلمه موردنظر را ببیند.

BERT می‌تواند جمله WHOLE را در هر دو طرف یک کلمه مدل‌سازی زبان متنی و همه کلمات را تقریباً یک‌باره مشاهده کند.

ER: نمایندگی رمزگذار

آنچه رمزگذاری می‌شود رمزگشایی می‌شود

. این مکانیسم ورود و خروج است.

T: ترانسفورماتورها

BERT از “ترانسفورماتورها” و “مدل‌سازی زبان نقابدار” استفاده می‌کند.

یکی از مسائل مهم در درک زبان طبیعی درگذشته این بوده است که نتوانسته است درک کند که یک کلمه به چه زمینه‌ای اشاره دارد.

به‌عنوان‌مثال ضمایر. خیلی راحت می‌توان رد کرد که کسی در یک مکالمه در مورد چه کسی صحبت می‌کند. حتی انسان‌ها می‌توانند تلاش کنند تا دائماً در مورد افرادی که در مکالمه به آنها رجوع می‌کنند پیگیر باشند.

این برای موتورهای جستجو به‌نوعی مشابه است، اما آنها تلاش می‌کنند تا وقتی شما می‌گویید ا آنها، او، ما، آن و غیره پیگیری کنند.

بنابراین بخش توجه ترانسفورماتورها در واقع به ضمیرها و تمام معانی کلمات متمرکز است که با هم سعی می‌کنند با چه کسی صحبت شود یا در هر زمینه خاصی چه چیزی صحبت می‌شود.

مدل‌سازی زبان ماسک دار کلمه موردنظر را از دیدن خود متوقف می‌کند. این ماسک موردنیاز است زیرا مانع از آن می‌شود که کلمه تحت تمرکز واقعاً خود را ببیند.

وقتی ماسک در جای خود قرار دارد، BERT فقط حدس می‌زند که کلمه گمشده چیست. این نیز بخشی از روند تنظیم دقیق است.

 

BERT به چه نوع وظایف زبان طبیعی کمک می‌کند؟

برت در مواردی مانند:

تعیین موجودیت

پیش‌بینی جمله بعدی مستلزم متن

وضوح هسته

پاسخ سؤال

ابهام‌زدایی از کلمه.

جمع‌بندی خودکار

رزولوشن چندمی

BERT معیارهای پیشرفته (SOTA) را در ۱۱ کار NLP پیشرفت داده است.

 

BERT چگونه بر جستجو تأثیر می‌گذارد؟

BERT به Google کمک خواهد کرد تا زبان انسان را بهتر درک کند

درک BERT از تفاوت‌های ظریف زبان انسانی تفاوت چشمگیری در نحوه تفسیر گوگل از سؤالات ایجاد خواهد کرد زیرا افراد به طور واضح با پرسش‌های طولانی‌تر و پرسشگرانه در حال جستجو هستند.

 

 

 

BERT به مقیاس جستجوی گفتگو کمک خواهد کرد

BERT همچنین تأثیر زیادی در جستجوی صوتی خواهد داشت به‌عنوان جایگزینی برای Pygmalion دارای مشکل. آشنایی با گوگل برت

انتظار جستجوی بزرگ برای سئوی بین‌المللی

BERT از این توانایی تک زبانی تا چند زبانی برخوردار است زیرا بسیاری از الگوها در یک زبان به زبان‌های دیگر ترجمه می‌شود.

این امکان وجود دارد که بسیاری از آموخته‌ها را به زبان‌های مختلف منتقل کنید حتی اگر لزوماً خود زبان را به طور کامل درک نکند.

Google بهتر “نکات متنی” و سؤالات مبهم را درک می‌کند

بسیاری از مردم از اینکه رتبه‌های آنها تحت تأثیر قرار گرفته شکایت دارند

اما من فکر می‌کنم که این احتمالاً بیشتر به این دلیل است که گوگل به‌نوعی در درک متن ظریف سؤالات و متن ظریف محتوا بهتر شده است.

بنابراین شاید، Google بهتر بتواند تفاوت‌های متنی و سؤالات مبهم را درک کند.

آیا باید (یا می‌توانید) محتوای خود را برای BERT بهینه کنید؟

احتمالاً نه.

گوگل برت چارچوبی برای درک بهتر است. این به‌خودی‌خود محتوا را قضاوت نمی‌کند. این فقط بهتر می‌فهمد چه چیزی وجود دارد.

به‌عنوان‌مثال، ممکن است گوگل برت ناگهان چیزهای بیشتری را بفهمد و شاید صفحاتی وجود داشته باشد که بیش از حد بهینه شده‌اند و ممکن است تحت تأثیر چیز دیگری مانند Panda قرار بگیرند زیرا BERT گوگل ناگهان متوجه شد که یک صفحه خاص برای چیزی مناسب نیست.

این بدان معنا نیست که شما برای BERT بهینه‌سازی می‌کنید، احتمالاً بهتر است در وهله اول فقط طبیعی بنویسید.

منبع

 

 

https://seo.bazaryabi.ir/tag/%da%86%da%af%d9%88%d9%86%d9%87-%d8%b3%d8%a6%d9%88%da%a9%d8%a7%d8%b1-%d8%b4%d9%88%db%8c%d9%85/