OCR و اصلاح نتایج

پردازش تصاویر با استفاده از فناوری‌های پردازشگر نظیر OCR از الزامات اساسی برای استخراج متون از تصاویر اسکن شده و تهیه متن قابل جستجو و تحلیل است

تشخیص متون خطی (دست‌نویس)

بخش بزرگی از منابع کتابخانه‌ای و اسناد کشور دست‌نویس هستند، یافتن راهکارهایی که بتوان متون دست‌نویس را تشخیص داد و یا به نوعی آن‌ها را به متن رایانه‌ای تبدیل کرد دنیای ناشناخته این منابع را آشکار می‌کند.

تشخیص تصاویر مشابه

با توجه به انبوه تولید عکس به‌وسیله دوربین‌های دیجیتال و موبایل و انبوه ورود این دست فایل‌ها به مجموعه اهمیت تشخیص عکس‌های مشابه و ارتباط دهی به آن‌ها نیازی ضروری است.

تشخیص محتوای تصویر و تگ گذاری

تشخیص محتوای تصاویر دیجیتال بدون دخالت انسان و اختصاص موضوع و کلیدواژه به آن‌ها هدف این تکنیک است.

نمایه‌سازی خودکار (استخراج کلمات و عبارات کلیدی)

دسته‌بندی، بازیابی، توصیف، تحلیل و یافتن ارتباط‌های بین متون نیاز به استخراج واژه‌های کلیدی آن‌ها دارد، تمرکز سازمان‌دهی اطلاعات بر یافتن مرتبط‌ترین کلیدواژه‌ها برای مرتبط‌ترین متون است. با توجه به این نکته که تحلیل متون و محتواهای طولانی توسط انسان نیاز به زمان زیادی دارد و شاید خیلی دقیق نباشد، داشتن یک چکیده جامع حاوی کلمات و عبارات کلیدی منبع این زمان را بسیار کوتاه می‌کند. استخراج خودکار کلیدواژه‌های موضوعی از متون دیجیتال و خوشه‌بندی آن‌ها گامی بزرگ در راستای بازیابی و مدیریت محتواهای دیجیتال است.

تشخیص موجودیت‌های اسمی (Named Entities)

بخش مهمی از فراداده‌های تولید شده از منابع اطلاعاتی متعلق به موجودیت‌های اسمی هستند. با استفاده این ماژول موجودیت‌های نامدار یا همان اعلام (اسامی اشخاص، مکان‌ها، سازمان‌ها، رویدادها، محصولات، مشاغل) از درون‌متن به‌صورت هوشمند استخراج می‌شوند. موجودیت‌های نامدار تأثیر بسیار بالایی در صحت و عملکرد سیستم ایجاد می‌کنند و این‌گونه مفاهیم از ارزش بسیار بالایی برخوردار هستند. و در ارزش‌گذاری کلیدواژه‌ها هم می‌تواند بسیار مؤثر باشند.

تشخیص متون مرتبط (Related Texts)

با توجه به این مطلب که یکی از وظایف کتابخانه‌ها و آرشیوها پیشنهاد منابع هم موضوع و مرتبط به پژوهشگران است و این فرایند در سیستم دستی با طبقه‌بندی‌های موضوعی علوم مانند رده‌بندی کنگره امریکا و یا رده‌بندی ده‌دهی دیویی یا رده‌بندی جهانی کولن انجام می‌شد و به این ترتیب منابع هم موضوع در یک مکان فیزیکی به‌صورت هم‌زمان در دسترس کاربر قرار می‌گرفت تشخیص این ارتباط به‌صورت خودکار در بین منابع اطلاعاتی حجم بالایی از فرایند پردازش را کم می‌کند در ضمن در سیستم خودکار این ارتباط به‌صورت وسیع‌تری امکان‌پذیر است.

تشخیص سوگیری / گرایش متن (Sentiment Analysis/ Opinion Mining)

تشخیص سوگیری متن بخصوص برای پژوهشگران امر مهمی است، تشخیص اینکه نظر نویسنده‌ای در خصوص موضوعی مثبت یا منفی است یا چه موضع‌گیری در آن موضوع وجود دارد اهمیت دارد. در بسیاری از متون حوزه علوم اجتماعی و علوم انسانی موضوع و گرایش موضوعی محتوی و تشخیص آن با پیچیدگی همراه است این موضوع کاملاً برعکس و متفاوت از متون علمی در موضوعات فنی و مهندسی، علوم پایه و حتی پزشکی است. معمولاً تشخیص این گرایش موضوعات یا با تحلیل و مطالعه عمیق همراه است که هزینه زیادی دارد و یا با تحلیل ارجاعات و منابع متون، با توجه به این موضوع که گرایش موضوعی این دست متون از عنوان، مقدمه و حتی فهرست مندرجات امکان‌پذیر نیست، تحلیل متن و نتیجه‌گیری در خصوص آن می‌تواند ارزش اطلاعاتی مفیدی بدهد. در خصوص نظرکاوی می‌توان نظر افراد یک جامعه را در خصوص موضوعی تحلیل و یا پیش‌بینی کرد.

خلاصه‌سازی متن

در حقیقت تهیه چکیده جامع و حاوی تمام نکات است که بسیار در معرفی و ایجاد ارتباط متون و همچنین تولید فراداده مورد استفاده است. در دنیای امروز تمایل به خواندن متون کوتاه short reading یکی از نیازهای کاربران است با توجه به گستردگی منابع اطلاعاتی این نوع تولید محتوای ماشینی بسیار پرکاربرد خواهد بود.

تشخیص موضوع متن (Topic Detection)

تشخیص موضوع اصلی متون مثل اینکه این متن در موضوع اجتماعی، سیاسی اقتصادی،‌ ورزشی و یا موضوع علمی آن مثل ادبیات، پزشکی،‌ فلسفه، علم اطلاعات، علوم رایانه و .... هدف این نکنیک است. یکی از نیازهای اصلی در سازمان اسناد و کتابخانه ملی ایران یافتن موضوع اصلی متن، منبع، تصویر، فیلم و ... است.

علم‌سنجی (مبتنی بر استناددهی منابع)

در دو دهه گذشته تحلیل تولید علم، شناسایی شکاف‌های علمی و پیش‌بینی روند حرکت علم در هر حوزه با کمک تحلیل منابع و ارجاعات به کمک نرم‌افزارهای علم‌سنجی بسیار کمک به شناخت روندهای علمی و تفکیک آن‌ها بر اساس دوره زمانی و موقعیت مکانی و دوره اوج و افول یک trend در حوزه موضوعی، شناسایی خلأهای علمی در جامعه، ترسیم نقشه‌های علمی به‌سادگی امکان‌پذیر است و این موضوع در برنامه‌ریزی و تصمیم برای آینده بسیار مؤثر است.

بخشی از تصاویر ocr

بخشی از تصاویر ocr

بخشی از تصاویر ocr

بخشی از تصاویر آرشیوی