علامت تجاری منشور

منشور

مکانیسم جستجو در منشور استفاده از کلیدواژه ها است.
با وارد کردن یک حرف از کلیدواژه در محل جستجو، فهرستی از کلیدواژه ها برای انتخاب دقیق و بازیابی اطلاعات در اختیار جستجوکننده قرار می گیرد.

بازیابی اطلاعات درشبکه جهانی وب

تهیه کننده: منشور

اطلاعات به صورت تصاعدی و به سرعت در حال رشد است و با پیدایش اینترنت افراد سعی می کنند با جستجوی اینترنت اطلاعات مورد نیازشان رااز میان این انبوه اطلاعات پیدا کنند.

مقدمه

گفته می شود اگر جستجو کننده ای نتواند اطلاعاتی را که می خواهد پیدا کند این اطلاعات ارزش چندانی ندارد. بنابراین، دسترس پذیر ساختن اطلاعات، یعنی سهولت پیدا کردن و استفاده کردن از آن، بر ارزش اطلاعات می افزاید و در این جاست که نمایه سازی نقش خود را آشکار می سازد.
بسیاری از افراد با پیدایش اینترنت کمتر به سراغ ابزارهای سنتی اطلاعات می روند و با جستجوی اینترنت سعی می کنند اطلاعات مورد نیازشان را پیدا کنند. سیستم های بازیابی اطلاعات در شبکه جهانی وب بسیار محبوب و فراون هستند. دسترسی به محتوای اطلاعاتی آن ها روزانه به صورت تصاعدی در حال افزایش است. اما، مشکل اصلی جستجوهای مؤثر است. مجموعه ای از مدارک در برابرمجموعه ای از کاربرانی قرار دارد که دراین مجموعه به دنبال زیر مجموعه خاصی از آن هستند. وقتی مخزن اطلاعات به اندازه حافظه اش رشد کند کار پیدا کردن اطلاعات بسیار سخت تر می شود. بنابراین، با ید این انبوه اطلاعات را در کانال هایی قرار داد و به نحوی قرار داد که کاملا" قابل دسترسی باشند. تنها وسیله یافتن مدارک مناسب با نیاز جستجو کننده، استفاده از کلیدواژه هایی است که نماینده مدرک محسوب می شوند. بنابراین، کلید واژه ها ابزار یافتن محل مدرک در مچموعه مدارک با استفاده از موتورهای جستجو هستند. مساله اصلی شناسایی کلمات یا عبارات کلیدی یک مدرک و عرضه آن به سیستم است که اساس نمایه سازی را تشکیل می دهد. لذا، نمایه سازی در سیستم بازیابی اطلاعات جایگاه بسیار مهمی دارد.
از طرفی، باید مخاطب را شناخت تا بتوان با توجه به نیازش اصطلاحات درست را انتخاب کرد. مخاطبان وب سایت داخلی یک تشکیلات، کارکنان آن تشکیلات هستند. برای وب سایت یک شرکت، مشتریان فعلی و بالقوه، کارکنان، رقبا، پژوهشگران، بازاریابان، و شاید سرمایه گذاران فعلی و بالقوه مخاطبان آن هستند. شبکه های خبری و علمی موجود بر روی تارنمای جهانی وب با طیف وسیعی از مخاطبان متنوع سر و کار دارند. با این بینش، نمایه ساز می داند چه اصطلاحاتی را انتخاب کند تا این طیف وسیع کاربران را پاسخگو باشد.

روش های نمایه سازی

هدف هر نمایه گشودن محتویات یا ویژگی های هر مدرک در یک مجموعه و ارائه نقاط آسان و متعدد دستیابی کاربر به اطلاعاتی است که لازم دارد. مفید بودن یک نمایه بوسیله انتخاب اصطلاحات نمایه آن تعیین می شود. هرچه میزان اصطلاحات مربوط بیشتر باشد احتمال رفع نیاز کاربران مختلف بیشتر و سرخوردگی آنان کمتر می شود.

از لحاظ بازیابی اطلاعات، نمایه سازی فرایند تهیه نمادی ازمدرک بوسیله تعیین توصیفگرهای محتوا یا اصطلاحاتی برای مدرک است. این اصطلاحات برای ارزیابی مرتبط بودن مدرک به پرسش کاربر استفاده می شوند و مستقیما" به سودمندی سیستم بازیابی اطلاعات کمک می کنند.

نمایه سازی می تواند به صورت دستی یا اتوماتیک انجام گیرد. گاهی اوقات برای عرضه مدارک پیچیده ای که محتوای بیشتر و کلمات کلیدی کمتری دارند از روش نیمه اتوماتیک هم استفاده می شود. سال ها بر سر این که کدام روش نمایه سازی، دستی یا ماشینی، بهتر است بحث و استدلال شده است. نمایه سازی دستی همیشه از نظر ارائه مفهوم بهتر است چون می تواند معنی کل مدرک را با تعداد محدودتری کلید واژه بیان کند. اما وسعت اطلاعات وب و تنوع موضوعات، نمایه سازی دستی را غیرعملی می سازد. گفته می شود وقتی می توان از همه اصطلاحات یک مدرک استفاده کرد و جنبه های بیشتری از مدرک را نشان داد چه نیازی به انتخاب کلمات نمایه برای معرفی آن هست؟ و اگر فرد می تواند هریک از کلمات مدرک را جستجو کند چه نیازی به اضافه کردن اصلاحات دیگر هست؟

در نمایه سازی دستی، استفاده از واژگان کنترل شده به نمایه ساز کمک می کند اصطلاحات نمایه را با توجه به مفاهیم عمده برای معرفی مدرک تعیین نماید. واژگان کنترل شده مجموعه محدودی از اصطلاحات نمایه است که مبنای انتخاب کلید واژه ها قرار می گیرد. این نوع نمایه سازی در مخازن بزرگ مدارک وقت بسیار زیادی می گیرد به خصوص وقتی که نمایه ساز سعی می کند اصطلاحات مناسبی را تعیین کند که در مجموعه واژگان کنترل شده نیستند. نمایه سازی کند می شود اما فرآیند جستجو آسان تر و سریع تر می شود. واژگان های کنترل شده به نمایه ساز کمک می کنند اصطلاحات مناسبی را انتخاب کند که محتوای اطلاعاتی مدرک را شرح می دهند. . در نمایه سازی دستی چون تجزیه و تحلیل متن کامل بسیار هزینه بر و وقت گیر است نمایه سازان انسانی تمرکزشان را بر روی بخش های خاصی از مدرک از قبیل عنوان، چکیده یا خلاصه، یافته ها ونتایج متمرکز می کنند و اصطلاحات مهم را برچسب می زنند.

نمایه سازی اتوماتیک فرآیندی است که در آن کامپیوتر متنی را که به زبان طبیعی و قابل خواندن بوسیله ماشین است پردازش می کند. در نمایه سازی اتوماتیک از مجموعه ای از فرآیند ها برای تجزیه و تحلیل بسامد کلمات متن استفاده می شود. این روش نیاز به فهمیدن مطلب مورد نمایه ندارد و لذا منتج به یک نمایه سازی یکنواخت می شود اما این به قیمت معنای واقعی آنچه تفسیر شده تمام می شود. برنامه کامپیوتر معنی اظهارات و جملات را نمی فهمد و به همین جهت قادر به اختصاص اصطلاحات مرتبط نیست و یا اشتباها" اختصاص می دهد. غالب وب سایت ها از برچسب زنی واژه های کنترل شده برای نمایه سازی صفحات وب خود استفاده می کنند.

از آن جا که حجم شبکه جهانی وب به شدت درحال افزایش است و مخازن اطلاعات به شدت در حال رشد است، از نمایه سازی اتوماتیک استفاده می شود. نمایه سازی اتوماتیک نیازی به واژگان کنترل شده ای که نمایه سازان دستی استفاده می کنند، ندارد و امکان می دهد جنبه های بسیار بیشتری از مدرک ارائه شود. واژگان کنترل نشده، نمایه سازی را آسان تر، سریع تر و مستعد خطای کمتری می کند، اما فرآیند جستجو را بسیار سخت تر می سازد.

ادعا می شود نمایه سازی ماشینی روش بهتری است چون زمان، دقت، صحت، واژگان، محدودیت جستجو، و بررسی را حذف می کند و اجازه می دهد کل مدرک تجزیه و تحلیل شود. محدودیت های عمده این روش، عدم امکان تصمیم گیری در باره انتخاب اصطلاحات مهم، عدم تمایز بین موضوعات مهم و کم اهمیت، عدم تشخیص هم نویسه ها و مترادف ها، و عدم درک برداشت ها است. برای غلبه بر این مشکل باید قواعد پیچیده ای برای انتخاب اصطلاحات و رفع ابهام از مفاهیم بوسیله الگوریتم های مختلف نوشت. برای محدود کردن اندازه نمایه و سرعت بخشیدن به انطباق مدرک با درخواست جستجو، معمولا" کلمات بازدارنده را که کرارا" درنوشته ها اتفاق می افتند و هیچ بار معنایی ندارند فیلتر می کنند. بنابراین، تصمیم گیری در مورد لیست کلمات بازدارنده قبل از نمایه سازی از اقدامات کلیدی است.

وقتی مواد چاپی نمایه می شوند معمولا" انتخاب اصطلاحات از صفحه اول آغاز می شود و به ترتیب نظم صفحات پیش می رود. اما، در وب سایت چنین ترتیبی وجود ندارد. لذا، لازم نیست که صفحات به ترتیب نمایه شوند بلکه می توان صفحات را به ترتیبی که در لیست ظاهر می شوند نمایه کرد. معمولا" صفحات در داخل هر پوشه فرعی ( ساب فولدر) به ترتیب الفبایی عنوان نمایش داده می شوند. گرچه این ترتیب ممکن است برای خواندن صفحات وب جهت نمایه سازی چندان عملی بنظر نرسد اما، چون هر صفحه به موضوع خاصی اختصاص داده می شود چندان بد هم بنظر نمی رسد. علاوه براین، چون پوشه های فرعی، صفحات را توسط موضوع گروه بندی می کنند نمایه سازی با گروه موضوعی بهترین رهیافت است. علاوه بر این، می توان صفحه اصلی وب سایت را مرور کرد، صفحات اول موجود در سطح بالای سلسله مراتب و یا منوی جهت یابی را از نظر گذراند و به این ترتیب دیدی کلی نسبت به دامنه موضوعات پیدا کرد. البته کوشش برای دستیابی به همه صفحات از طریق منوی ناوبری سایت می تواند گیج کننده باشد، چون ممکن است محل را گم کرد. بنابراین، توصیه می شود سایر صفحات را به ترتیبی که در لیست فایل ظاهر می شوند نمایه سازی کرد. آما، راجع به این که چه صفحاتی باید نمایه شوند ابتدا باید اندازه سایت و ساختار آن مدنظر قرار گیرد و تصمیم گرفته شود چه چیزهایی را باید در آن گنجاند، کدام بخش ها باید نادیده گرفته شوند و به کدام بخش ها باید بیشتر پرداخته شود. تصور نکنید که همه صفحات وب باید نمایه شوند.

نهایتا" این که، شاید نمایه با کیفیت حرفه ای تولید شده توسط انسان برای وب سایت بتواند راه حلی برای مشکلات باشد چون هرجزء اطلاعات توسط نمایه ساز انسان تجزیه و تحلیل می شود تا مشخص شود برای چه سوالاتی پاسخ مرتبط را فراهم می کند. علاوه بر این، قضاوتی که در باره ارزش محتوا توسط نمایه ساز می شود می تواند به خواننده منتقل شود. تهیه نمایه دستی نیاز به وقت بیشتر و مهارت نمایه ساز دارد و چون به طور قابل توجهی دسترسی را بهبود می بخشد موجب صرفه جویی جوینده اطلاعات در زمان و هزینه می شود. اما به هرحال، تهیه نمایه ماشینی سریع و آسان است و برای تهیه کننده، صرفه جویی در زمان و هزینه را به همراه دارد و برای اطلاعاتی که به سرعت در حال تغییر است مناسب می باشد. البته، نمایه سازی اتوماتیک هم علیرغم سال ها مطالعه و تدبیر، هنوز با مشکلات زیادی مواجه است.

انتخاب اصطلاح نمایه

انتخاب اصطلاح در قلب هدایت کاربر به اطلاعات قرار دارد. اصطلاح نمایه یا کلید واژه نامی است که برای معرفی موضوع انتخاب می گردد و الزاما" کلمه ای نیست که در مدرک ظاهر می شود. ممکن است اصطلاحات نمایه و کلمات موجود در مدرک یکسان باشند یا اندک اختلافی در شکلشان داشته باشند یا کاملا´فرق داشته باشند، مثلا" انتخاب کلمات مترادف برای موضوعی که به مفهوم کلمات در بافت مربوط می شود.

موضوعات در گروه های مختلفی، از جمله ملموس و نا ملموس، عینی و ذهنی قرار می گیرند. نمونه آن شامل مکان ها و مناطق، اشخاص، سازمان ها، رویدادها، زمینه های دانش، مواد، محصولات، تجهیزات، روش ها، فنون، فرمول ها، داده ها، آثار ذکر شده در یک مجموعه، مراجع کتابشناختی، محتوا و ویژگی های انواع مختلف مدارک، و رابطه بین مدرک، هدف و عملکرد آن است. بنابر این، هر چیزی که برای بازیابی اطلاعات مهم است می تواند به عنوان اصطلاح نمایه سازی استفاده شود.

در سیستم های بازیابی اطلاعات دو نوع اصطلاح وجود دارد: اصطلاحات عینی و اصطلاحات ذهنی. در مورد تعیین اصطلاحات عینی که جزو محتوای معنایی نیستند معمولا" اختلاف نظری وجود ندارد، مثل نام نویسنده، تاریخ انتشار، و آدرس مدرک. اما اصطلاحات ذهنی به منظور انعکاس اطلاعات موجود در مدرک استفاده می شوند که بر سر انتخاب و میزان ارتباط آن ها اختلاف نظر وجود دارد. به آن ها اصطلاحات محتوا هم گفته می شود. نمایه سازی به طور کلی به تعیین اصطلاحات ذهنی برای مدارک مربوط می شود. در صورت تمایل می توان برای آن ها وزنی در نظر گرفت که نشان دهد تا چه میزان محتوای اطلاعاتی مدرک را منعکس می کنند.

اصطلاح نمایه، بسته به زبانی که توسط موتورهای جستجو برای پرسش بازیابی اطلاعات مطرح می شود، می تواند به زبان طبیعی یا کنترل شده باشد. یک نمایه متشکل از اصطلاحات نمایه و مکان یاب ها است و همه مدخل ها را به ترتیب حروف الفبا یا شیوه های دیگر در خود جمع می کند. هدف هر نمایه گشودن محتویات یا ویژگی های مدارک موجود در یک مجموعه و ارائه نقاط آسان و متعدد دستیابی به اطلاعات آن است. مفید بودن یک نمایه بوسیله انتخاب اصطلاحات نمایه آن تعیین می شود. هرچه میزان اصطلاحات مربوط بیشتر باشد احتمال رفع نیاز کاربران مختلف بیشتر می شود.

نمایه سازی وب سایت

فرآیند ذهنی نمایه سازی وب سایت، بیشتر با نمایه سازی پیایند ها وجه مشترک دارد تا با نمایه سازی انتهای کتاب. به جای پیدا کردن یک مفهوم و نمایه کردن آن با مکان یاب هایی که یک ردیف صفحات را نشان می دهند کار با یک صفحه وب یا بخشی از آن آغاز می شود، موضوعات اصلی آن تعیین می شود و تمام مفاهیم با مکان یاب های آن صفحه یا سرعنوان نمایه می گردند. لازم است که در هر زمان فقط روی یک صفحه وب تمرکز شود، بدون این که نگران باشیم یک مفهوم چند صفحه را می پوشاند. علاوه بر این، در حالی که نمایه سازی کتاب می طلبد که شما همه کلمات را بخوانید، در نمایه سازی وب سایت اغلب می توان سر عنوان ها را برانداز کرد تا محتوای صفحه را درک نمود. در نمایه سازی کتاب می توان از تکنیک های مختلفی برای پیش بینی ساختار نمایه استفاده کرد مثلا"، ممکن است فهرست مندرجات راخواند یا زیر فصل های هر فصل را مرور کرد. وب سایت ها گرچه فاقد فهرست مندرجات هستند اما نقشه سایت تقریبا" معادل آن را ارائه می کند و قبل از شروع نمایه سازی می توان نگاهی به آن انداخت. راه دیگری برای اطلاع از دامنه وب سایت نگاه کردن به منوی جهت یابی یا ناوبری (محلی در هر صفحه که کاربر را به سایر صفحات وب سایت راهنمایی می کند) است. اگر منو دارای سطوح دوم یا سوم است، پس باید هر سطح جداگانه بررسی شود.

نمایه سازی وب کار ساده ای نیست و آنچه درحال تکامل است تا پاسخگوی نیاز اطلاعاتی کاربران وب باشد سه نوع مختلف نمایه سازی است: سبک نمایه سازی انتهای کتاب در درون وب سایت، سبک درختی موضوعات سایت ها، و موتورهای جستجو. برخی از سازمان ها افزودن نمایه ها به سایتشان را به اندازه افزودن نمایه به کتاب مهم می دانند. به هر حال تمام صاحبان سایت ها باید نیاز به نمایه را به رسمیت شناسند.

اکثریت قریب به اتفاق نمایه سازی وب، نمایه سازی اتوماتیک است که نتیجه آن سطح بالایی از بازیابی و سطح پائینی از مناسبت است. بسیاری از نمایه سازان احساس می کنند که میزان دقت بسیاری از نتایج موتورهای جستجو به اندازه نمایه سازی واقعی خوب نیست. اما با پیچیده تر شدن فن آوری های موتور های جستجو، ما باید شاهد تغییراتی در سطح نا امیدی افرادی که از این ابزار ها استفاده می کنند باشیم.

در نمایه سازی اتوماتیک از مجموعه ای از فرآیند ها برای تجزیه و تحلیل بسامد کلمات متن استفاده می شود. این روش نیاز به فهمیدن مطلب مورد نمایه ندارد و لذا منتج به یک نمایه سازی یکنواخت می شود اما این به قیمت معنای واقعی آنچه تفسیر شده تمام می شود. برنامه کامپیوتر معنی اظهارات و جملات را نمی فهمد و به همین جهت قادر به اختصاص اصطلاحات مرتبط نمی باشد و یا اشتباها" اختصاص می دهد.

تعیین اصطلاح برای مدارک می تواند براساس تک واژه یا ترکیب واژه ها باشد. نمایه سازی تک واژه شامل مجموعه ای از کلمات و بسامد آن هاست. کلماتی که صرفا" نقش دستوری بازی می کنند به صورت فهرستی از کلمات بازدارنده درآمده و حذف می شوند. چنین مجموعه ای ممکن است با درنظرگرفتن ریشه کلمات و حذف پسوند ها پالایش شود. تک واژه ها برای نمایه سازی چندان مطلوب نیستند چون معنی آن ها در خارج از بافتشان اغلب نامفهوم است. ممکن است برای تک واژه ها وزنی نعیین شود که در این صورت از روش های آماری و احتمالات استفاده می شود.

نمایه سازی با ترکیب واژه ها یا عبارات، معنی خاص تری را تداعی می کند و در نتیجه موجب قدرت تشخیص بیشتری می شود، دقت بازیابی را بیشتر می کند و بازیافت را بهبود می بخشد. از روش های تولید خود کار اصطلاحات یا عبارت های پیچیده نمایه، می توان از روش های آماری و احتمالاتی نام برد. در روش های آماری از خصوصیات مدرک استفاده می شود و روش های احتمالاتی نیاز به درون داد کاربر از لحاظ قضاوت ارتباط مدارک بازیابی شده با پرسش دارد.

ارائه محتوای مدرک بر اساس روش های آماری یا بر اساس معنا هرکدام نقاط قوت و ضعف خود را دارد. از آن جا که اصطلاح تعیین شده برای توصیف مدرک باید مبتنی بر محتوای آن باشد در نمایه سازی اتوماتیک چنانچه کنترل های لازم صورت نگیرد سیستم با انبوهی از کلید واژه های نامربوط مواجه می شود. از طرفی نمایه سازی دستی فرایندی وقت گیر است و ساعت های متمادی وقت لازم است تا مخزنی از مدارک را، که روز بروز هم رشد می کند، نمایه کرد.

استفاده از فرا برچسب ها در اچ تی ام ال با این هدف صورت گرفته که محتوای صفحات وب رابه موتورهای جستجو نشان دهند. بسیاری از موتورهای جستجو یک نمایه را جستجو می کنند، یعنی لیستی از اصطلاحاتی که حاصل گردش روبات ها است. موتور جستجو مسئول جستجوی نمایه برای بازیابی مدارک مرتبط با پرسش کاربر است.

سوء استفاده از فرا برچسب ها توسط صاحبان سایت ها که سعی می کنند به طور مصنوعی مرتبط بودن یک صفحه را با استفاده از فرا برچسب ها یی از اصطلاحات نا مربوط به محتوای واقعی صفحه بالا ببرند شایع است. در حال حاضر اکثر موتور جستجوهای تجاری به متنی که در فرا برچسب ها پیدا می شود وزن کمی می دهند.

در برخورد با این قضیه، اقداماتی برای استاندارد کردن محتوای فرا برچسب ها صورت گرفته. شرکت های بزرگ و سازمان های دولتی که تعداد زیادی سایت دارند اغلب یک درگاه عمومی به محتوای وب سایتشان درست کرده اند. آن ها می توانند نتایج جستجوها را با استفاده دقیق از فرا برچسب های ساختاریافته که بتوانند موتورهای جستجوی موجود برروی سایتشان را هدایت کنند، بهبود بخشند. نمایه سازان می توانند مهارت تجزیه و تحلیلشان را برای ایجاد این برچسب های ساختاریافته بکار برند.

سودمندی و اثر بخشی یک سیستم بازیابی اطلاعات با دو شاخص کنترل می شود: جامعیت و اخص بودن. جامعیت نمایه سازی آن که نشان دهنده میزان پوشش موضوعات مدرک توسط سیستم نمایه سازی است. وقتی سیستم نمایه سازی جامع است تعداد زیادی اصطلاح ایجاد می شود تا همه جنبه های موضوع مدرک را نشان دهد و وقتی جامع نیست تعداد محدودی اصطلاح، موضوعات عمده مدرک را منعکس می کنند. اخص بودن به گستردگی اصطلاحات نمایه سازی اشاره دارد. اصطلاحات اعم بسیاری از مدارک مفید را همراه با تعداد زیادی مدارک نامربوط بازیابی می کنند در حالی که اصطلاحات اخص مدارک کمتری را بازیابی می کنند و ممکن است برخی از مدارک مربوط را از دست بدهند. تأثیر جامعیت نمایه سازی و اخص بودن اصطلاح برثمربخشی بازیابی را می توان با دو شاخص که سال هاست برای مشکلات بازیابی اطلاعات استفاده می شود توضیح داد: بازیافت، که نسبت تعداد مدارک بازیابی شده مربوط به کل مدارک مربوط موجود در مجموعه است و دقت، که نسبت تعداد مدارک بازیابی شده مربوط به کل مدارک بازیابی شده است. گاهی یک نسبت منفی ارتباط، برای قضاوت در باره ناکارآیی بازیابی هم مفید است. این اثر را می توان با نسبت تعداد مدارک بازیابی شده نا مرتبط به کل مدارک نا مرتبط اندازه گیری کرد.

ایده آل این است که بتوان به بازیافت بالا و دقت بالا دست یافت. اما درعمل باید حد وسط را گرفت چون اصطلاحات اخص دقت بالایی را به قیمت بازیافت پایین و اصطلاحات اعم بازیافت بالاتری را به قیمت دقت کمتر عرضه می کنند. بنابراین، کارآیی یک سیستم بازیابی اطلاعات بوسیله شاخص دقت نسبت به سطوح مختلف بازیافت اندازه گیری می شود.

مدل های بازیابی اطلاعات

مدل های بازیابی اطلاعات را می توان به چهار نوع تقسیم کرد: مدل های بولی، مدل های جبری، مدل های احتمالاتی، و مدل های ترکیبی.

در مدل بولی، مدارک با مجموعه ای از اصطلاحات نمایه معرفی می شوند که هر یک از آن ها یک متغیر بولی به حساب می آیند. پرسش کاربران هم به صورت بول از طریق ترکیب اصطلاحات بوسیله عملگر های "و، یا، نه" مشخص می شوند. معیار ارزیابی سیستم بازیابی، میزان مشابهت مدرک و پرسش می باشد.

مدل جبری یا مدل بردار-فضا مبتنی بر این فرض است که مدارک موجود در یک مجموعه می توانند توسط مجموعه ای از بردارها در فضا یی که توسط مجموعه ای از بردارهای اصطلاح استاندارد پوشانده شده، عرضه شوند. در این مدل لازم نیست که روابط موجود بین اصطلاحات در نظر گرفته شوند. به علاوه، این مدل مشابهت مدرک با پرسش را مشخص نمی کند و باید تا حدودی به صورت اختیاری انتخاب شود.

مدل احتمالاتی وابستگی بین اصطلاحات و روابط آن ها را در نظر می گیرد و پارامتر های عمده ای از قبیل وزن اصطلاحات پرسش و مشابهت مدرک با پرسش را در نظر می گیرد. این مدل مبتنی بر دو پارامتر است: احتمال مرتبط بودن و نامرتبط بودن یک مدرک به پرسش کاربر که با استفاده از وزن احتمالی اصطلاح محاسبه می شود.


مدل ترکیبی در واقع ترکیبی از سه مدل فوق است که با استفاده از مدل گسترش یافته بول و مدل بردار- فضا مشابهت پرسش و مدرک اندازه گیری می شود و بهترین ارزش احتمال برای یک مجموعه به طور تجربی تعیین می شود.

منابع:

Stephen, Christopher. From Print to Web: Indexing for Accessibility. www.ingentaconnect.com.

Human or Computer Produced Indexes? www.indexers.org.uk.

Gudivada, Venkat N. & et al. Information Retrieval on the World Wide Web. www.cacs.louisiana.edu.

:موضوعات دیگر

نمایه سازی دستی

نمایه سازی اتوماتیک

انتخاب کلید واژه

جامعیت نمایه سازی

اخص بودن نمایه سازی

بازیافت اطلاعات

دقت بازیابی