فهرست سازی خودکار

فهرست‌نویسی فرایندی است که طی آن مشخصات ظاهری و محتوایی، یعنی اطلاعات کتابشناختی مواد و منابع اطلاعاتی روی برگه‌های استاندارد (سیستم دستی) یا رکوردهای ماشین‌خوان ثبت می‌شود. هدف آن ایجاد فهرستی برای بازیابی است. در حقیقت فهرست‌نویسی تولید فراداده به‌منظور بازیابی دقیق و سریع منابع اطلاعاتی است. یکی از مأموریت‌های اصلی کتابخانه‌های ملی در دنیا تولید فراداده برای منابع اطلاعاتی است، در دنیای امروز و با تنوع محمل‌های اطلاعاتی و افزایش حجم تولید اطلاعات در قالب دیجیتال انجام این کار بدون کمک گرفتم از هوش مصنوعی و خودکارسازی برای کتابخانه‌های ملی بسیار هزینه‌بر،‌ وقت‌گیر و کند خواهد بود. در ضمن شایان ذکر است بیشترین بودجه کتابخانه‌ها و آرشیوهای ملی برای پردازش منابع (فهرست‌نویسی، نمایه‌سازی و ...) صرف می‌شود. فهرست‌نویسی خودکار فرایند فیپا را که خدمتی به ناشران است را نیز تسریع می‌کند. با فهرست‌نویسی خودکار می‌توان به تحلیل دقیق‌تری از موضوع کتاب‌ها رسید.

دستیار فهرست‌نویس

همان‌طور که ذکر شد بیشترین هزینه در کتابخانه‌ها و آرشیوهای ملی مربوط به پردازش منابع اطلاعاتی است با توجه به این نکته که بخشی از پردازش منابع (پردازش توصیفی) نیاز به تحلیل و مهارت تحلیلی پیچیده ندارد داشتن دستیار خودکار در فرایند پردازش (فهرست‌نویسی) که بخشی از فرایند توصیفی فهرست‌نویسی را انجام دهد منجر به کاهش هزینه و زمان تولید فراداده برای منابع می‌شود. این خودکار سازی می‌تواند تعاملی بین انسان و ماشین در راستای استخراج عناصر فراداده‌ای باشد و همچنین ابزارهای مورد نیاز فهرست‌نویس یا نمایه‌ساز را در فضای الکترونیکی فراهم کند.

نمایه‌سازی خودکار (استخراج کلمات و عبارات کلیدی)

دسته‌بندی، بازیابی، توصیف، تحلیل و یافتن ارتباط‌های بین متون نیاز به استخراج واژه‌های کلیدی آن‌ها دارد، تمرکز سازمان‌دهی اطلاعات بر یافتن مرتبط‌ترین کلیدواژه‌ها برای مرتبط‌ترین متون است. با توجه به این نکته که تحلیل متون و محتواهای طولانی توسط انسان نیاز به زمان زیادی دارد و شاید خیلی دقیق نباشد، داشتن یک چکیده جامع حاوی کلمات و عبارات کلیدی منبع این زمان را بسیار کوتاه می‌کند. استخراج خودکار کلیدواژه‌های موضوعی از متون دیجیتال و خوشه‌بندی آن‌ها گامی بزرگ در راستای بازیابی و مدیریت محتواهای دیجیتال است.

تشخیص موجودیت‌های اسمی (Named Entities)

بخش مهمی از فراداده‌های تولید شده از منابع اطلاعاتی متعلق به موجودیت‌های اسمی هستند. با استفاده این ماژول موجودیت‌های نامدار یا همان اعلام (اسامی اشخاص، مکان‌ها، سازمان‌ها، رویدادها، محصولات، مشاغل) از درون‌متن به‌صورت هوشمند استخراج می‌شوند. موجودیت‌های نامدار تأثیر بسیار بالایی در صحت و عملکرد سیستم ایجاد می‌کنند و این‌گونه مفاهیم از ارزش بسیار بالایی برخوردار هستند. و در ارزش‌گذاری کلیدواژه‌ها هم می‌تواند بسیار مؤثر باشند.

تشخیص متون مرتبط (Related Texts)

با توجه به این مطلب که یکی از وظایف کتابخانه‌ها و آرشیوها پیشنهاد منابع هم موضوع و مرتبط به پژوهشگران است و این فرایند در سیستم دستی با طبقه‌بندی‌های موضوعی علوم مانند رده‌بندی کنگره امریکا و یا رده‌بندی ده‌دهی دیویی یا رده‌بندی جهانی کولن انجام می‌شد و به این ترتیب منابع هم موضوع در یک مکان فیزیکی به‌صورت هم‌زمان در دسترس کاربر قرار می‌گرفت تشخیص این ارتباط به‌صورت خودکار در بین منابع اطلاعاتی حجم بالایی از فرایند پردازش را کم می‌کند در ضمن در سیستم خودکار این ارتباط به‌صورت وسیع‌تری امکان‌پذیر است.

تشخیص سوگیری / گرایش متن (Sentiment Analysis/ Opinion Mining)

تشخیص سوگیری متن بخصوص برای پژوهشگران امر مهمی است، تشخیص اینکه نظر نویسنده‌ای در خصوص موضوعی مثبت یا منفی است یا چه موضع‌گیری در آن موضوع وجود دارد اهمیت دارد. در بسیاری از متون حوزه علوم اجتماعی و علوم انسانی موضوع و گرایش موضوعی محتوی و تشخیص آن با پیچیدگی همراه است این موضوع کاملاً برعکس و متفاوت از متون علمی در موضوعات فنی و مهندسی، علوم پایه و حتی پزشکی است. معمولاً تشخیص این گرایش موضوعات یا با تحلیل و مطالعه عمیق همراه است که هزینه زیادی دارد و یا با تحلیل ارجاعات و منابع متون، با توجه به این موضوع که گرایش موضوعی این دست متون از عنوان، مقدمه و حتی فهرست مندرجات امکان‌پذیر نیست، تحلیل متن و نتیجه‌گیری در خصوص آن می‌تواند ارزش اطلاعاتی مفیدی بدهد. در خصوص نظرکاوی می‌توان نظر افراد یک جامعه را در خصوص موضوعی تحلیل و یا پیش‌بینی کرد.

خلاصه‌سازی متن

در حقیقت تهیه چکیده جامع و حاوی تمام نکات است که بسیار در معرفی و ایجاد ارتباط متون و همچنین تولید فراداده مورد استفاده است. در دنیای امروز تمایل به خواندن متون کوتاه short reading یکی از نیازهای کاربران است با توجه به گستردگی منابع اطلاعاتی این نوع تولید محتوای ماشینی بسیار پرکاربرد خواهد بود.

تشخیص موضوع متن (Topic Detection)

تشخیص موضوع اصلی متون مثل اینکه این متن در موضوع اجتماعی، سیاسی اقتصادی،‌ ورزشی و یا موضوع علمی آن مثل ادبیات، پزشکی،‌ فلسفه، علم اطلاعات، علوم رایانه و .... هدف این نکنیک است. یکی از نیازهای اصلی در سازمان اسناد و کتابخانه ملی ایران یافتن موضوع اصلی متن، منبع، تصویر، فیلم و ... است.

علم‌سنجی (مبتنی بر استناددهی منابع)

در دو دهه گذشته تحلیل تولید علم، شناسایی شکاف‌های علمی و پیش‌بینی روند حرکت علم در هر حوزه با کمک تحلیل منابع و ارجاعات به کمک نرم‌افزارهای علم‌سنجی بسیار کمک به شناخت روندهای علمی و تفکیک آن‌ها بر اساس دوره زمانی و موقعیت مکانی و دوره اوج و افول یک trend در حوزه موضوعی، شناسایی خلأهای علمی در جامعه، ترسیم نقشه‌های علمی به‌سادگی امکان‌پذیر است و این موضوع در برنامه‌ریزی و تصمیم برای آینده بسیار مؤثر است.

نمونه ای از فهرست نویسی