صفحه اصلی
آغاز به کار سامانه پیکره‌های ایرانداک (ساپا)
  • 2779 مشاهدات

سامانه پیکره‌های ایرانداک (ساپا) در پاسخ به نیاز پژوهشگران کشور در آسان‌سازیِ فرایند پژوهش، در نشانی SAPA.IRANDOC.AC.IR راه‌اندازی و در دسترس همه پژوهشگران کشور گذارده شده است. بسیاری از پژوهش‌های زبان‌شناسی و تصمیم‌گیری‌ها در برنامه‌ریزی زبانی، تنها با کاربرد یک پیکره زبانی شدنی هستند. پیکره؛ مجموعه‌ای نظام‌مند، رایانه‌ای، و درست از زبان است که برای بررسی‌های زبان‌شناختی به کار می‌رود. پیکره‌ها کاربردهای بسیاری را در پردازش زبان طبیعی و درک و بازشناسی گفتار، تبدیل متن به گفتار و گفتار به متن، نگارش فرهنگ‌ها، آموزش و پژوهش، ساخت پایگاه‌های داده زبانی، بررسی واژه‌های هم‌آیند در زبان‌های گوناگون، پایشگری زبان برای پیگیری و ردگیری دگرگونی‌های زبانی، ترجمه ماشینی، توسعة مفاهیم و منابع در پیوند با واژگان، نگارش و گسترش مهارت‌های نوشتاری، آموزش و یادگیری زبان با شناخت گویش‌ها و گوناگونی زبان‌ها، معنا‌شناسی، تحلیل کلام، زبان‌شناسی اجتماعی، زبان‌شناسی حقوقی، واکاوی ژانرهای ادبی، و پژوهش‌های دستور زبان دارند.

گفتنی است سامانه پیکره‌های ایرانداک (ساپا) که می‌تواند از چندین پیکره پشتیبانی کند، اکنون دارای یک پیکره با نام «پیکره پژوهش‌نامه» با نزدیک به چهار میلیون و ۷۸۰ هزار واژه تخصصی و میان‌رشته در زمینه‌هایی مانند علم اطلاعات و دانش‌َشناسی، فناوری اطلاعات، مدیریت دانش، زبان‌شناسی رایانشی، اصطلاح‌شناسی، و مانند آن‌هاست. این پیکره از مقاله‌های «پژوهش‌نامه پردازش و مدیریت اطلاعات» ساخته شده است و برای پژوهش‌هایی که نیازمند بهره‌گیری از پیکره‌های تخصصی هستند، ارزش و کاربرد بسیاری دارد. هنگام بازیابی اطلاعات در پیکره پژوهش‌نامه، افزون بر نمایش واژه یا عبارتِ جست‌وجو در بافت زبان، نام مقاله‌ای که آن واژه یا عبارت در آن به کار رفته است، موضوع مقاله، پدیدآور(ان) مقاله، و فراوانی واژه یا عبارتِ جست‌وجو نیز نمایش داده می‌شوند. داده‌های این پیکره دارای برچسب اجزای واژگانی کلام (POS tag) نیز هستند که در بسیاری از پردازش‌های زبان به کار می‌روند و مقوله واژه‌ها (مانند اسم، صفت، قید، و ...) را پیدا می‌کنند.